電子メールサーバによる遺伝子解析 藤田信之

 すでに第2章でも触れられているように,電子メールのみを媒体とした各種のネットワークサービスが提供され,盛んに利用されている.ここではその実践的な応用として,世界中の電子メールサーバを駆使してホモロジー検索などの遺伝子解析を行う方法を紹介する.

電子メールサーバのメリット

 電子メールサーバのメリットの1つに,電子メールの送受信さえできればどんな環境からでも利用できる点がある.例えば,UUCP接続しかできない場合や,NIFTY-Serve,PC-VANなどのパソコン通信からでも問題なく利用できる.そこで,電子メールサーバはインターネットに直接入れない人のための代替手段であるととらえられがちである.確かにそういう側面もあるには違いないが,電子メールサーバのメリットは決してそれだけにとどまるものではない.電子メールサーバならではのメリットを次に紹介する.

1.最新のデータベースが利用できる

 DDBJ,GenBank(NCBI),EMBLなどのデータバンク自身が提供しているサーバはもとより,他のサーバでも,これらのデータバンクから日毎のアップデート情報をもらって独自に最新のデータベースを構築しているところが多い.配列データベースはすさまじい勢いで成長を続けており,2年間で倍のサイズになるとも言われている.このような状況にあっては,たとえCD-ROMであろうと,自分のところにすべてのデータを置いてスタンドアロンで検索を行うことは現実的に不可能になりつつある.となれば,やはりネットワーク上のサーバを利用するしかない.

2.目的に応じてサーバを選択できる

 サーバごとにメールの書式が異なるという煩わしさはあるものの,電子メールという共通のインタフェースで,世界中のサーバが利用できるメリットは大きい.しかも,ほとんどすべてのサーバが特別の登録なしに誰でも(従って無料で)利用できる.また,今のところ多くないが,複数のサーバを有機的に結びつけたサービスも行われている.例えば後で触れるgenmarkサーバでは,ゲノム配列からコード領域を予測するだけでなく,予測に基づいて切り出した配列を自動的にNCBIのblastサーバ(ホモロジー検索)に送って最新のデータベースと比較することができる.

3.計算機資源が有効に利用できる

 人気のあるサーバでは,ユーザから届けられたメールはまず順番待ちの列に加えられ,計算機に余裕ができると順に計算に回される.結果として,計算機に過度の負担をかけることもなく,効率的に処理が行われる.利用する側からみても,電子メールサーバからの応答は意外なほど速い.例えば,筆者は以前はDDBJの計算機にログインして手動でホモロジー検索を行うことが多かったが,最近は専らDDBJの電子メールサーバを利用している.混んでいる計算機を無理して使うよりは,そのほうがずっと速く結果を入手することができるからである.とは言っても,人気のあるサーバでは稀に1日近く待たされることもある.あまり短気にならないことが肝要である.

4.最新の技術が手軽に利用できる

 ホモロジー検索の方法としては,fasta法とblast法が一般的であるが,最近ではSmith-Waterman法などのより強力な方法を採用するサーバも増えている.計算機の能力が全体的に向上していることに加え,超並列マシンや専用のハードウェア・アクセラレータなどの先進技術をいち早く取り入れているおかげである.また,ゲノム配列上でのコード領域の予測や,蛋白質の二次構造予測などの分野では,neural network,artificial intelligenceなどの言葉で形容される最新のアルゴリズムが真っ先にメールサーバとして公開されており,パソコン上の解析ソフトウェアを用いるよりは数段上のレベルの解析を手軽に行うことができる.

5.データの機密性が高い

 サーバでのメールの受信,計算の実行,計算結果の返信はすべて無人で自動的に行われる.間に人間の手を介さないため,データの機密性は一般的に言ってきわめて高い.

データ提供型のサーバ

 ここでは電子メールサーバを「データ提供型」のサーバと「データ解析型」のサーバに分けて考えることにする.このうちデータ提供型のサーバというのは,キーワードを送ってデータベースを検索したり,その結果をもとにデータを取り出したりするためのものである.あるいは,PROSITEなどのデータベースや各種のソフトウェアを丸ごと送ってくれるところもある.また,第2章で紹介のあったFTP mailやGophermailもこの中に含めて考えることができるかもしれない.しかし,やはりこれらはどちらかと言えば,WAIS,FTP,Gopher,WWWなどのサービス,もしくはNentrezやGDB/Accessorなどの専用のクライアント・サーバ型アプリケーションの領分であり,これらのサービスが利用できない場合の救済手段という色合いが強い.ここでは,分子生物学分野で利用できる代表的なサーバを示すにとどめる.詳しい情報が必要ならメールの本文(表題ではない)にhelpとだけ書いて,下記のアドレスに送るとよい.
 dbget@genome.ad.jp:Institute for Chemical Research (GenomeNet), Kyoto
   (GenBank, EMBL, PIR, SWISS-PROT, PRF, PDB, PROSITE, OMIN他)
 flat-netserv@smlab.eg.gunma-u.ac.jp:Gunma University, Gunma
   (GenBank, EMBL, GenPept, SWISS-PROT, PIR, PRF) 

 netserv@embl-heidelberg.de:European Molecular Biology Laboratory (EMBL), Germany
   (EMBL, SWISS-PROT, PROSITE, EPD, BLOCKS, 各種ソフトウェア他)

 retrieve@ncbi.nlm.nih.gov:National Center for Biotechnology Information (NCBI), USA
   (GenBank, EMBL, SWISS-PROT, PIR, GenPept, PDB, TFD他)

 fileserv@nbrf.georgetown.edu:Protein Information Resource (PIR), USA
   (PIR, NRL_3D, PATCHX, GenBank, EMBL)

 gene-server@bchs.uh.edu:University of Houston, USA
   (PIR, GenBank, 各種ソフトウェア)

データ解析型のサーバ

 サーバに配列データ(塩基配列またはアミノ酸配列)と解析のためのパラメータを送り,解析の結果を電子メールで受け取る.このタイプのサーバとして最もよく利用されているのは,配列データベースを対象とするホモロジー検索である.それ以外にも,モチーフ検索,蛋白質の二次構造予測,コード領域予測など,それぞれに特徴のあるサーバが続々と登場している.ジュネーブ大学のAmos Bairoch氏が定期的にサーバのリストを作成して公開しているので,これを見れば最新の情報を得ることができる.最新のリストはexpasy.hcuge.ch (129.195. 254.61)の/databases/infoディレクトリにserv_ema.txtという名前で登録されており,anonymous FTPによって入手することができる.Bairoch氏のリスト(Version 2.16 / May 16, 1994)に掲載されているサーバのうち,6月末の時点で筆者が動作確認できたものを以下にあげておく.それ以外に独自に調査したものもいくつか追加した.問い合わせメールの書式や結果の見方など,個々のサーバについてのより詳しい情報は,本文にhelpとだけ書いたメールを下記のアドレスに送ることによって入手できる.

1.ホモロジー検索
  ●fasta法
  fasta@nig.ac.jp:DNA Data Bank of Japan(DDBJ), Mishima
  fasta@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto
  fasta@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba
  fasta@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降)
  fasta@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany
  fileserv@nbrf.georgetown.edu:Protein Information Resource(PIR), USA

  ●blast法
  blast@nig.ac.jp:DNA Data Bank of Japan(DDBJ), Mishima
  blast@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba
  blast@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降)
  blast@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto
  blast@ncbi.nlm.nih.gov:National Center for Biotechnology Information(NCBI), USA
  bioscan@cs.unc.edu:University of North Carolina, USA

  ●Smith-Waterman法ほか
  mpsearch@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降)
  mpsearch@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba
  blitz@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany 
  dapmail@ed.ac.uk:Edinburgh University, UK
  blaze@dna.affrc.go.jp:National Institute of Agrobiological Resources, Tsukuba 
  cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland
  bicserv@sgbcd.weizmann.ac.il:Weizmann Institute, Israel
  q@ornl.gov:Oak Ridge National Laboratory, USA
  flash@ncc.go.jp:National Cancer Center, Tokyo(1994年11月以降)
  dflash@watson.ibm.com:Thomas J. Watson Research Center, IBM, USA
  quick@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany

2.ドメイン・モチーフ検索
  motif@genome.ad.jp:Institute for Chemical Research(GenomeNet), Kyoto
  prosite@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany
  blocks@howard.fhcrc.org:Fred Hutchinson Center, USA
  sbase@icgeb.trieste.it:International Centre for Genetic Engineering and Biotechnology, Italy
  prodom@toulouse.inra.fr:INRA Toulouse, France

3.蛋白質二次構造予測
  predictprotein@embl-heidelberg.de:European Molecular Biology Laboratory(EMBL), Germany
  nnpredict@celeste.ucsf.edu:University of California, San Francisco, USA
  deleage@ibcp.fr:Institut de Biologie et Chimie des Proteines, France

4.コード領域予測
  genmark@ford.gatech.edu:Georgia Tech School of Applied Biology, USA
  grail@ornl.gov:Oak Ridge National Laboratory, USA
  geneid@bir.cedb.uwf.edu:Molecular Biology Computer Research Resource, USA


5.その他
  ●マルチプルアラインメント,系統樹ほか
  cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland

  ●スプライス部位の予測
  netgene@virus.fki.dth.dk:Technical University of Denmark, Denmark

  ●繰り返し配列の検索
  pythia@anl.gov:Argonne National Laboratory, USA

  ●ペプチドマップによる蛋白質の同定
  cbrg@inf.ethz.ch:Computational Biochemistry Research Group, Switzerland
  mowse@dl.ac.uk:Imperial Cancer Research Fund, UK
 

電子メールサーバの実際

 サーバが受け取ったメールは自動的に解釈され,パラメータや配列データの切り出しが行われる.従って,メール文はサーバごとに定められた書式に沿って正確に記述する必要がある.下に示すのは,ホモロジー検索のためにDDBJのfasta検索サーバに送る問い合わせメールの1例である.
  program        fasta
  datalib      PROTEIN
  ktup               1
  scores            50
  alignments        20
  begin
  > my_sequence
  MQGSVTEFLK PRLVDIEQVS STHAKVTLEP LERGFGHTLG NALRRILLSS MPGCAVTEVE
  IDGVLHEYST KEGVQEDILE ILLNLKGLAV RVQGKDEVIL TLNKSGIGPV TAADITHDGD
  VEIVKPQHVI CHLTDENASI SMRIKVQRGR GYVPASTRIH SEEDERPIGR LLVDACYSPV
  TEIKDVLASR GLSLGMRLEN WPPASIADE
  end
パラメータの指定は上から順に,
 1)検索プログラムはfastaを使用
 2)検索対象のデータベースはPROTEIN(PIRとSWISS-PROTをマージしたもの)
 3)初期スキャンのためのワード長(ktup値)は1
 4)検索の結果上位50件のホモロジースコアを出力
 5)同じく上位20件のアラインメントを出力
となっている.beginの次の>で始まる1行はコメントで,それ以降end行までのすべての文字が配列と解釈される.例えば同じfasta検索サーバでも,DDBJ,GenomeNet,EMBLとそれぞれに少しずつ書式が違うので注意が必要だ.

 メールの準備ができたら,リストに記載されているアドレスに宛てて発送する(上の例ではfasta@nig.ac.jp).メール発送の実際の手順については,使用しているシステムによって異なるので,第2章「パソコン通信経由の場合」,第4章「Eudora」および付録1(Unixのmailコマンド)を参照していただきたい.Subject欄には何も書かなくてもよいが,NIFTY-ServeではSubjectを空欄にすることができないので,その場合は何か適当に書いておく.最短で15分程度,長くても数時間のうちには,検索の結果が電子メールで送られてくる.メールの読み方についても上記の各章を参照していただきたい.ホモロジー検索で多数のアラインメント出力を指定した場合など,結果の出力が数千行にも及ぶことがある.パソコン通信では,着信メールの長さや保存しておけるメールの数に制限を設けていることもあるので,一度に複数の検索を行う場合などは,トラブルがないように十分注意する必要がある(第2章を参照).

 motif@genome.ad.jpやgenmark@ford.gatech.eduなどのサーバでは,結果の一部をグラフィックデータとして送ってくることがある.結果を視覚的にとらえられる利点があり,今後このようなサーバが増えてくるものと思われる.ただし,グラフィックスはMacintoshで一般的なPICTなどの形式ではなく,ポストスクリプト形式で送られてくる場合がほとんどである.Laser Writerなどのポストスクリプトプリンタがあれば,返信メールの中からポストスクリプト言語で書かれた部分を抜き出し,プリンタに付属のユーティリティを使ってプリンタに転送(ダウンロード)してやれば,プリンタの最高解像度でプリントすることができる.ポストスクリプトプリンタがない場合は,ポストスクリプト用のプレビューアを使用するとよい.Macintosh用のプレビューアとしては,フリーウェアのMacintosh Ghostscript (MacGS)がある.genmarkサーバからの出力をMacGSで表示させた例を図1に示す.画面に表示するだけでなく,プリントアウトしたり,PICTデータとしてファイルに保存することもできる.

図1

電子メールサーバのためのフロントエンド

 魅力いっぱいの電子メールサーバであるが,おそらく唯一の欠点は,サーバごとに問い合わせメールの書式が異なる点であろう.いつも同じサーバを同じ目的で利用するだけなら苦にもならないが,複数のサーバを使い分ける場合,それらすべての書式を覚えるのは大変である.そこで登場したのが,配列データや各種のパラメータをMacintoshのユーザ・インタフェースで簡単に入力できるようにしたフロントエンド(一種のクライアント)ソフトウェアである.そのうちのいくつかを紹介しよう.なお,これらのソフトウェアを利用するには,以下の条件を満たしている必要がある.

 1)Macintoshがインターネットに直結されていること
 2)MacTCPがインストールされていること
 3)インターネット上の計算機にメールアカウントを持つこと
 ハイパーカードのスタックとして提供されているものに,NCBIのサーバを対象とした"GenBank Search@NCBI"(Don Gilbert氏作,フリーウェア),それをEMBLのサーバ用に移植した"EMBL E-Mail Search"(Heikki Lehvaslaiho氏作,フリーウェア)がある.後者の初期メニューを図2に示す.

図2

図3

配列はSequence Editorを使ってキーボードまたはクリップボードから入力できるほか,from diskと書かれたボタンを押してディスク上のファイルを読み込むこともできる(図3).GenBank,EMBL,Pearsonなどのほとんどの配列フォーマットに対応している.検索するデータベースや各種のパラメータも図4(fasta検索の場合)のように簡単に入力することができる.入力が終わったら,FASTA IT!と書かれたボタンを押すだけで,自動的にEMBLのサーバにメールが送られる.

図4

 アプリケーション形式のものとして,同じDon Gilbert氏作のフリーウェアSeqAppがある.SeqAppはむしろ配列エディタ,遺伝子解析ソフトウェアとして有名であるが,図5に示すように,多数の電子メールサーバに対応しており,これらのサーバ向けの問い合わせメールを簡単な操作で発送することができる(図6).また,必要ならば,SeqApp自身をPOPクライアントおよびGopherクライアントとして使用することもできる.さながら世界中のサーバを検索エンジン,解析エンジンとして使用する,未来志向の「総合」遺伝子解析ソフトウェアといった趣である.

図5

図6

 上述のものはすべてGilbert氏が主宰するIndiana大学のanonymous FTPサーバ(ftp://ftp.bio. indiana.edu/molbio/macディレクトリ)または国内のミラーサイト(ftp://ftp.nig.ac.jp/pub/mirror/ IUBIO/molbio/macディレクトリ)から入手できる.分子生物学,とりわけ遺伝子解析の分野では,電子メールサーバは欠かすことのできないものになっていると言っても過言ではない.NCBIやJohns Hopkins大学などのように,最新のネットワークサービスであるWWWの中にホモロジー検索のサービスを組み入れているところも出始めてはいるが,作業効率などの点を考えると,電子メールサーバに比べて必ずしも満足できるものではない.これからも「電子メールで遺伝子解析」の時代は続きそうである.