1.最新のデータベースが利用できる
DDBJ,GenBank(NCBI),EMBLなどのデータバンク自身が提供しているサーバはもとより,他のサーバでも,これらのデータバンクから日毎のアップデート情報をもらって独自に最新のデータベースを構築しているところが多い.配列データベースはすさまじい勢いで成長を続けており,2年間で倍のサイズになるとも言われている.このような状況にあっては,たとえCD-ROMであろうと,自分のところにすべてのデータを置いてスタンドアロンで検索を行うことは現実的に不可能になりつつある.となれば,やはりネットワーク上のサーバを利用するしかない.
2.目的に応じてサーバを選択できる
サーバごとにメールの書式が異なるという煩わしさはあるものの,電子メールという共通のインタフェースで,世界中のサーバが利用できるメリットは大きい.しかも,ほとんどすべてのサーバが特別の登録なしに誰でも(従って無料で)利用できる.また,今のところ多くないが,複数のサーバを有機的に結びつけたサービスも行われている.例えば後で触れるgenmarkサーバでは,ゲノム配列からコード領域を予測するだけでなく,予測に基づいて切り出した配列を自動的にNCBIのblastサーバ(ホモロジー検索)に送って最新のデータベースと比較することができる.
3.計算機資源が有効に利用できる
人気のあるサーバでは,ユーザから届けられたメールはまず順番待ちの列に加えられ,計算機に余裕ができると順に計算に回される.結果として,計算機に過度の負担をかけることもなく,効率的に処理が行われる.利用する側からみても,電子メールサーバからの応答は意外なほど速い.例えば,筆者は以前はDDBJの計算機にログインして手動でホモロジー検索を行うことが多かったが,最近は専らDDBJの電子メールサーバを利用している.混んでいる計算機を無理して使うよりは,そのほうがずっと速く結果を入手することができるからである.とは言っても,人気のあるサーバでは稀に1日近く待たされることもある.あまり短気にならないことが肝要である.
4.最新の技術が手軽に利用できる
ホモロジー検索の方法としては,fasta法とblast法が一般的であるが,最近ではSmith-Waterman法などのより強力な方法を採用するサーバも増えている.計算機の能力が全体的に向上していることに加え,超並列マシンや専用のハードウェア・アクセラレータなどの先進技術をいち早く取り入れているおかげである.また,ゲノム配列上でのコード領域の予測や,蛋白質の二次構造予測などの分野では,neural network,artificial intelligenceなどの言葉で形容される最新のアルゴリズムが真っ先にメールサーバとして公開されており,パソコン上の解析ソフトウェアを用いるよりは数段上のレベルの解析を手軽に行うことができる.
5.データの機密性が高い
サーバでのメールの受信,計算の実行,計算結果の返信はすべて無人で自動的に行われる.間に人間の手を介さないため,データの機密性は一般的に言ってきわめて高い.
dbget@genome.ad.jp:Institute for Chemical Research (GenomeNet), Kyoto (GenBank, EMBL, PIR, SWISS-PROT, PRF, PDB, PROSITE, OMIN他) flat-netserv@smlab.eg.gunma-u.ac.jp:Gunma University, Gunma (GenBank, EMBL, GenPept, SWISS-PROT, PIR, PRF) netserv@embl-heidelberg.de:European Molecular Biology Laboratory (EMBL), Germany (EMBL, SWISS-PROT, PROSITE, EPD, BLOCKS, 各種ソフトウェア他) retrieve@ncbi.nlm.nih.gov:National Center for Biotechnology Information (NCBI), USA (GenBank, EMBL, SWISS-PROT, PIR, GenPept, PDB, TFD他) fileserv@nbrf.georgetown.edu:Protein Information Resource (PIR), USA (PIR, NRL_3D, PATCHX, GenBank, EMBL) gene-server@bchs.uh.edu:University of Houston, USA (PIR, GenBank, 各種ソフトウェア)
1.ホモロジー検索 ●fasta法 fasta@nig.ac.jp:DNA Data Bank of Japan(DDBJ), Mishima fasta@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto fasta@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba fasta@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降) fasta@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany fileserv@nbrf.georgetown.edu:Protein Information Resource(PIR), USA ●blast法 blast@nig.ac.jp:DNA Data Bank of Japan(DDBJ), Mishima blast@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba blast@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降) blast@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto blast@ncbi.nlm.nih.gov:National Center for Biotechnology Information(NCBI), USA bioscan@cs.unc.edu:University of North Carolina, USA ●Smith-Waterman法ほか mpsearch@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降) mpsearch@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba blitz@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany dapmail@ed.ac.uk:Edinburgh University, UK blaze@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland bicserv@sgbcd.weizmann.ac.il:Weizmann Institute, Israel q@ornl.gov:Oak Ridge National Laboratory, USA flash@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降) dflash@watson.ibm.com:Thomas J. Watson Research Center, IBM, USA quick@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany 2.ドメイン・モチーフ検索 motif@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto prosite@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany blocks@howard.fhcrc.org:Fred Hutchinson Center, USA sbase@icgeb.trieste.it:International Centre for Genetic Engineering and Biotechnology, Italy prodom@toulouse.inra.fr:INRA Toulouse, France 3.蛋白質二次構造予測 predictprotein@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany nnpredict@celeste.ucsf.edu:University of California, San Francisco, USA deleage@ibcp.fr:Institut de Biologie et Chimie des Proteines, France 4.コード領域予測 genmark@ford.gatech.edu:Georgia Tech School of Applied Biology, USA grail@ornl.gov:Oak Ridge National Laboratory, USA geneid@bir.cedb.uwf.edu:Molecular Biology Computer Research Resource, USA 5.その他 ●マルチプルアラインメント,系統樹ほか cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland ●スプライス部位の予測 netgene@virus.fki.dth.dk:Technical University of Denmark, Denmark ●繰り返し配列の検索 pythia@anl.gov:Argonne National Laboratory, USA ●ペプチドマップによる蛋白質の同定 cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland mowse@dl.ac.uk:Imperial Cancer Research Fund, UK
program fasta datalib PROTEIN ktup 1 scores 50 alignments 20 begin > my_sequence MQGSVTEFLK PRLVDIEQVS STHAKVTLEP LERGFGHTLG NALRRILLSS MPGCAVTEVE IDGVLHEYST KEGVQEDILE ILLNLKGLAV RVQGKDEVIL TLNKSGIGPV TAADITHDGD VEIVKPQHVI CHLTDENASI SMRIKVQRGR GYVPASTRIH SEEDERPIGR LLVDACYSPV TEIKDVLASR GLSLGMRLEN WPPASIADE endパラメータの指定は上から順に,
メールの準備ができたら,リストに記載されているアドレスに宛てて発送する(上の例ではfasta@nig.ac.jp).メール発送の実際の手順については,使用しているシステムによって異なるので,第2章「パソコン通信経由の場合」,第4章「Eudora」および付録1(Unixのmailコマンド)を参照していただきたい.Subject欄には何も書かなくてもよいが,NIFTY-ServeではSubjectを空欄にすることができないので,その場合は何か適当に書いておく.最短で15分程度,長くても数時間のうちには,検索の結果が電子メールで送られてくる.メールの読み方についても上記の各章を参照していただきたい.ホモロジー検索で多数のアラインメント出力を指定した場合など,結果の出力が数千行にも及ぶことがある.パソコン通信では,着信メールの長さや保存しておけるメールの数に制限を設けていることもあるので,一度に複数の検索を行う場合などは,トラブルがないように十分注意する必要がある(第2章を参照).
motif@genome.ad.jpやgenmark@ford.gatech.eduなどのサーバでは,結果の一部をグラフィックデータとして送ってくることがある.結果を視覚的にとらえられる利点があり,今後このようなサーバが増えてくるものと思われる.ただし,グラフィックスはMacintoshで一般的なPICTなどの形式ではなく,ポストスクリプト形式で送られてくる場合がほとんどである.Laser Writerなどのポストスクリプトプリンタがあれば,返信メールの中からポストスクリプト言語で書かれた部分を抜き出し,プリンタに付属のユーティリティを使ってプリンタに転送(ダウンロード)してやれば,プリンタの最高解像度でプリントすることができる.ポストスクリプトプリンタがない場合は,ポストスクリプト用のプレビューアを使用するとよい.Macintosh用のプレビューアとしては,フリーウェアのMacintosh Ghostscript (MacGS)がある.genmarkサーバからの出力をMacGSで表示させた例を図1に示す.画面に表示するだけでなく,プリントアウトしたり,PICTデータとしてファイルに保存することもできる.
図1
1)Macintoshがインターネットに直結されていること
2)MacTCPがインストールされていること
3)インターネット上の計算機にメールアカウントを持つこと
ハイパーカードのスタックとして提供されているものに,NCBIのサーバを対象とした"GenBank Search@NCBI"(Don Gilbert氏作,フリーウェア),それをEMBLのサーバ用に移植した"EMBL E-Mail Search"(Heikki Lehvaslaiho氏作,フリーウェア)がある.後者の初期メニューを図2に示す.
図2
図3
配列はSequence Editorを使ってキーボードまたはクリップボードから入力できるほか,from diskと書かれたボタンを押してディスク上のファイルを読み込むこともできる(図3).GenBank,EMBL,Pearsonなどのほとんどの配列フォーマットに対応している.検索するデータベースや各種のパラメータも図4(fasta検索の場合)のように簡単に入力することができる.入力が終わったら,FASTA IT!と書かれたボタンを押すだけで,自動的にEMBLのサーバにメールが送られる.
図4
アプリケーション形式のものとして,同じDon Gilbert氏作のフリーウェアSeqAppがある.SeqAppはむしろ配列エディタ,遺伝子解析ソフトウェアとして有名であるが,図5に示すように,多数の電子メールサーバに対応しており,これらのサーバ向けの問い合わせメールを簡単な操作で発送することができる(図6).また,必要ならば,SeqApp自身をPOPクライアントおよびGopherクライアントとして使用することもできる.さながら世界中のサーバを検索エンジン,解析エンジンとして使用する,未来志向の「総合」遺伝子解析ソフトウェアといった趣である.
図5
図6
上述のものはすべてGilbert氏が主宰するIndiana大学のanonymous FTPサーバ(ftp://ftp.bio. indiana.edu/molbio/macディレクトリ)または国内のミラーサイト(ftp://ftp.nig.ac.jp/pub/mirror/ IUBIO/molbio/macディレクトリ)から入手できる.分子生物学,とりわけ遺伝子解析の分野では,電子メールサーバは欠かすことのできないものになっていると言っても過言ではない.NCBIやJohns Hopkins大学などのように,最新のネットワークサービスであるWWWの中にホモロジー検索のサービスを組み入れているところも出始めてはいるが,作業効率などの点を考えると,電子メールサーバに比べて必ずしも満足できるものではない.これからも「電子メールで遺伝子解析」の時代は続きそうである.