藤田信之
配列データベースの検索,ホモロジー検索,モチーフ検索,さらには自分が決定した配列のデータベースへの登録など,遺伝子・蛋白質の配列解析において,ネットワークを利用する(あるいはせざるを得ない)機会は多い.この分野は,比較的初期の頃からネットワークと密接に関わってきた.具体的な利用形態は時代とともに変遷してきており,現在の主流は,
(2)アミノ酸配列デーベース
アミノ酸配列を集めたデータベースとしては,PIRとSWISS−PROTがよく知られている.PIRは米国のNBRF(National Biomedical Research Foundation)を中心にドイツのMIPS(Martinsried Institute for Protein Sequences),日本のJIPID(国際蛋白質情報データベース)が共同構築している老舗のデータベースである.SWISS−PROTはEMBLデータベースからの翻訳をもとに独自の注釈を加えたもので,週ごとの最新データが公開されていることもあって,ホモロジー検索に使われることが多い(SWISS−PROTはPROSITEデータベースの作者としても知られているジュネーブ大学のAmos Bairoch氏の活動に負うところが大きいのだが,この原稿を書いている時点で,SWISS−PROTが財政上の理由から存亡の危機に瀕しているというニュースが伝わってきた.各種のデータベースへのリンク情報など非常に付加価値の大きなデータベースだけに,なんとか存続してもらいたいものである).これ以外にGenBankデータベースから機械的に翻訳した配列を集めたGenPeptというデータベースがある.詳しい注釈は付けられていないが,GenBankと同様に毎日データが更新されるため,主にホモロジー検索に利用される.
(3)その他
これらの大規模なデータベース以外にも,生物種ごとの情報を集めたデータベースや,特定の機能を持つ遺伝子や蛋白質のデータを集めたデータベースが多数あり,専用の検索ツールとともにネットワーク上で公開されている.ここではいちいち紹介することはしないが,<http://www.expasy.ch/www/amos_www_links.html><変更>,<http://www.unl.edu/stc-95/ResTools/BioTools/biotools10a.html>などのインデックス情報が役に立つだろう.
データが見つからない
雑誌に配列のアクセション番号が書いてあるにもかかわらず,いくら探しても見つからないということがある.これには理由がある.GenBank,EMBL,DDBJに新規の配列を登録する際に,希望によって,論文が公表されるまでの間データの公開を差し止めることができる.つまりアクセション番号はあっても実際のデータが公になることはない.このようなデータは(通常はデータ提供者からの通知によって)データバンク側が論文が公表されたことを確認した後に公開されるが,中にはいつまでも確認できずに未公開のままになるものもある.このようなケースに出くわした時は,論文がすでに公表されていることをddbj@ddbj.nig.ac.jpに知らせるようにしよう.
| 図1 Nentrezによるデータベースの検索 | 図2 Web Entrezによるデータベースの検索 |
文献データベースとしてのEntrez
ネットワーク版のEntrezでは,CD-ROM版に比べてより大きなMEDLINEのサブセットを検索することができる.これがどの程度の雑誌をカバーしているかをみるために,筆者の所属する研究室から過去数年間に発表された論文(欧文)を検索してみた.フルセットのMEDLINE(Paper Chase)でヒットした102報のうち,実に96報がEntrezでも検索することができた.雑誌の種類でいうと33誌のうち29誌が該当した.分野によって偏りが大きいと思われるが,分子生物学関係の主な雑誌は網羅されていると考えてよいようである.Current Contentsなどと併用すれば,日常の文献検索には十分である.なによりも無料で検索できるのが大きな魅力である.
(2)DBGET
日本国内でサービスが行われているものの例として,ゲノムネット(京大化研および東大医科研)がサービスを行っているDBGET<http://www.genome.ad.jp/dbget/dbget.html>がある.DBGETは図3に示すように種々のデータベースを相互に関連づけて統合的に扱うことを目的としている.これを実現するためにLinkDBという独自のデータベース(リンク情報を扱うデータベース)を導入している点に特徴がある.これによって,もともとのデータベースに記載されているリンク情報に限定されずに,さまざまなデータベースを有機的に結びつけることができるようになっている.
図3 DBGETにおけるデータベース間のリンク
(3)その他のサーバ
DBGETと同じようにデータベース間のリンク情報を最大限に活用することを目指した検索システムとして,EMBLのThure Etzoldらが開発したSRSがある.これを利用した検索サーバがヨーロッパを中心として各地で稼動している.代表的な例として,<http://www.embl-heidelberg.de/srs/srsc>(図4)がある.また日本国内でも農業生物資源研究所<http://www.dna.affrc.go.jp/htdocs/SRS/index.html>が試験的にサービスを行っている.また,WAISという汎用の検索システムを利用したサービスも多数あるが,国内で利用できるものとしては,<http://ftp2.nig.ac.jp:8000/SFgate/dna.html>,<http://www.dna.affrc.go.jp/ htdocs/wais/wais.html>などがある.
(1)BLAST法
BLAST法はホモロジー検索の方法としては最近最もよく利用されているものである.他の方法に比べて桁違いに高速であるため,例えば配列決定の途中の部分配列のようなものでも,気軽に検索にかけることができる.BLAST法はギャップを考慮しないため検出感度や選択性が低いと考えられがちだが,実際には他の方法と比べてそれほど遜色はない.また,複数の相同領域の間に大きなギャップが存在したり,繰り返し配列が存在するために他の方法では適切なアラインメントが得られないような場合でも,BLAST法ならば相同領域の「組」として漏れなく検出できるメリットもある.BLASTは主に,blastp(アミノ酸配列vsアミノ酸配列データベース),blastn(塩基配列vs塩基配列データベース),blastx(塩基配列vsアミノ酸配列データベース),およびtblastn(アミノ酸配列vs塩基配列データベース)の4つのプログラムからなる.このうちblastxとtblastnでは,塩基配列を機械的に6つの読み枠で翻訳し,アミノ酸配列レベルで比較が行われる.国内で稼働中のサーバとしては以下のものがある.
1.blast@nig.ac.jp(日本DNAデータバンク) <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html> 2.blast@genome.ad.jp(ゲノムネット) <http://www.genome.ad.jp/SIT/BLAST.html> 3.blast@dna.affrc.go.jp(農業生物資源研究所) <http://www.dna.affrc.go.jp/htdocs/homology/homology.html> 4.blast@ncc.go.jp(国立がんセンター)例としてゲノムネットのBLASTサーバの入力フォームを図5に示す.検索プログラム,検索対象のデータベース,その他のパラメータを指定し,コピー&ペーストで配列を貼り込んだ後,「Exec」と書かれたボタンを押す.入力フォームの中に「SEG」,「XNU」というフィルタを設定する項目があるが,これを使うと検索配列(ただしアミノ酸配列に限る)の中に含まれる繰り返し配列や酸性ドメインなどの冗長な配列をマスクすることによって,無意味なアラインメントが多数出力されるのを未然に防ぐことができる.
図5 WWW上でのホモロジー検索(ゲノムネットの例)
このサーバの特徴は,BLAST法の高速性を生かして,検索の結果を電子メールとしてではなくWWWの画面上に返してくれる点である.しかも返される結果の中には配列データベースへのリンクが張られているため,即座に関連情報にたどり着くことができる(図6).同じようにリアルタイムで検索が行えるサーバとしては,他にも<http://www.ncbi.nlm.nih.gov/BLAST/>,<http://www.gdb.org/Dan/gq/gq.form.html>,<http://genome.eerie.fr/blast/blast-query.html>,<http://ulrec3.unil.ch/software/EPFLBLAST_form.html>などがある.また,<http://www.expasy.ch/cgi-bin/BLAST.pl><変更>,<http://dot.imgen.bcm.tmc.edu:9331/seq-search/protein-search.html>などのように,上記のサーバと連動し,さらに付加的な情報を加えたり,出力結果の二次的な解析を行うサービスもある.
図6 BLASTの結果から配列データベースを参照する
(2)FASTA法
FASTA法は最近までは最も一般的なホモロジー検索の方法であった.BLAST法と違ってギャップを考慮したアラインメントを行ってくれるため,今でも好んで使われることが多い.ギャップ付きのアラインメントを行うとは言っても,データベースの中から候補を絞り込む段階ではある種の近似が行われており,これによって高速化が図られている.
プログラムにはfasta(アミノ酸配列vsアミノ酸配列データベース,塩基配列vs塩基配列データベース)とtfasta(アミノ酸配列vs塩基配列データベース)の2種類があり,後者では塩基配列データベースを6つの読み枠で翻訳したものに対してアミノ酸配列レベルで検索が行われる.fastaはアミノ酸配列と塩基配列の両方で共通に用いられる.
最初にデータベースを走査する際に用いられるのがk-tuple(KTUP)と呼ばれるパラメータで,FASTA法の感度はこれに大きく依存する.アミノ酸配列の場合,k-tupleの標準値としては「2」を採用しているところが多いが,「1」を指定することによってある程度感度が向上することが期待できる.ただし検索時間はかなり長くなる.塩基配列の場合k-tupleの標準値は「6」であるが,これ以上値を小さくしてもほとんど意味がないばかりか,検索に膨大な時間を費やすことになるので,避けるべきである.国内のサーバとしては以下のものがある.
1.fasta@nig.ac.jp(日本DNAデータバンク) <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html> 2.fasta@dna.affrc.go.jp(農業生物資源研究所) <http://www.dna.affrc.go.jp/htdocs/homology/homology.html> 3.fasta@ncc.go.jp(国立がんセンター)(3)Smith-Waterman法
図7 Smith-Waterman法によるホモロジー検索
1.mpsearch@dna.affrc.go.jp(農業生物資源研究所) <http://www.dna.affrc.go.jp/htdocs/homology/homology.html> 2.blitz@ebi.ac.uk(European Bioinformatics Institute) <http://www.ebi.ac.uk/searches/blitz.html> 3.mpsearch@ncc.go.jp(国立がんセンター)
(1)アミノ酸配列のモチーフ
アミノ酸配列のモチーフを集めたデータベースとしてはPROSITE <http://www.expasy.ch/sprot/prosite.html><変更>がある.最新の13.1版には1167種類のモチーフが収められている.単にモチーフを定義するだけでなく,それぞれのモチーフについて詳しい解説がなされているのもPROSITEの大きな特徴である(図8).PROSITEの各モチーフに対応した局所的なアラインメントを集めたBLOCKSというデータベースもある<http://www.blocks.fhcrc.org/>.BLOCKSのデータを使って,モチーフ内の位置ごとに重み付けを行ったスコア行列を算定して検索を行うことにより,PROSITEを直接用いるよりも検出感度を上げることができる.PROSITEまたはBLOCKSを使ったモチーフ検索のサービスは多数あるが,代表的なものを以下にあげる.
図8 PROSITEデータベースのエントリーの例
1.motif@genome.ad.jp(ゲノムネット) <http://www.genome.ad.jp/SIT/MOTIF.html> 2.prosite@embl-heidelberg.de(European Molecular Biology Laboratory) <http://www.ebi.ac.uk/searches/prosite.html> 2.blocks@howard.fhcrc.org(Fred Hutchinson Cancer Research Center) <http://www.blocks.fhcrc.org/>(2)塩基配列のモチーフ
1.<http://www.genome.ad.jp/SIT/TFSEARCH.html>(ゲノムネット) 2.<http://www.gsf.de/cgi-bin/matsearch.pl> (National Research Center for Environment and Health) 3.<http://transfac.gbf-braunschweig.de/cgi-bin/matSearch/matsearch.pl> (Gesellschaft fur Biotechnologische Forschung)(3)蛋白質のドメイン
1.sbase@icgeb.trieste.it(International Centre for Genetic Engineering and Biotechnology) <http://www.icgeb.trieste.it/sbase/> 2.prodom@toulouse.inra.fr(Institut National de la Recherche Agronomique) <http://protein.toulouse.inra.fr/prodom.html>
1.malign@nig.ac.jp(日本DNAデータバンク) <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html> 2.clustal@ibc.wustl.edu(Washington University) <http://alfredo.wustl.edu/msa/clustal.cgi> 3.<http://dot.imgen.bcm.tmc.edu:9331/multi-align/multi-align.html> (Human Genome Center, Baylor College of Medicine) 4.<http://www.ibcp.fr/clustalw.html> (Institute of Biology and Chemistry of Proteins)いずれのプログラムを用いるにせよ,よい結果を得るためにはデータの下準備が必要なことが多い.特に気を付ける点として,比較するすべての配列の間にホモロジーがあること(1つでも関係のない配列が混じっているとエラーを誘発するなどの障害になる),比較する配列の長さおよび保存領域の位置がだいたい揃っていること(つまり末端部分も含めて極端に大きなギャップがないこと)があげられる.後者が問題になる場合は,保存領域の前後だけを切り出して比較するなどの工夫が必要である.
1.grail@ornl.gov(Oak Ridge National Laboratory) 2.genemark@ford.gatech.edu(Georgia Institute of Technology) genemark@embl-ebi.ac.uk(European Bioinformatics Institute)などが知られている.このうちGRAILは高等動物,中でもヒトの配列に対して最適化されており,さらに最近ではスプライス部位の予測なども取り入れることによって,ヒトの配列についてはコード領域の90%以上を正しく予測できると言われている.一方のGeneMarkは,どちらかと言えば原核生物のゲノム配列からコード領域を予測する際によく用いられている.生物種ごとの学習結果が保存されており,生物種を指定することによって精度の高い予測を行うことができる.現在GeneMarkが対応している生物種は以下の通りである.また予測結果の例を図9に示す.
Arabidopsis thaliana Mycoplasma capricolum Caenorhabditis elegans Gallus gallus Dictyostelium discoideum Escherichia coli [DEFAULT] Escherichia coli phages Euglena gracilis Euglena gracilis chloroplasts Xenopus laevis Drosophila melanogaster Homo sapiens Klebsiella pneumoniae Lactococcus species Mycobacterium leprae Mus musculus Plasmodium falciparum Rattus norvegicus Salmonella typhimurium Schizosaccharomyces pombe Bacillus subtilis Mycobacterium tuberculosis Phage T4 Lytechinus pictus Saccharomyces cerevisiae
スプライス部位(もしくはエクソン)の予測に力点をおいたものとして,
1.geneid@bir.cedb.uwf.edu(Molecular Biology Computer Research Resource) geneid@darwin.bu.edu(Biomolecular Engineering Research Center) 2.netgene@cbs.dth.dk(Technical University of Denmark) 3.service@bchs.uh.edu(Baylor College of Medicine) <http://dot.imgen.bcm.tmc.edu:9331/gene-finder/gf.html>などがある.単にdonor,acceptor配列を検索するだけではなく,コード領域の予測や配列データベースとの比較などを取り入れることによって予測精度を上げる工夫がなされている.
1.<http://www.embl-heidelberg.de/aaa.html>(European Molecular Biology Laboratory) 2.<http://www.expasy.ch/ch2d/aacompi.html>(University of Geneva)<変更> 3.<http://www.expasy.ch/www/guess-prot.html>(University of Geneva)<変更>蛋白質をプロテアーゼなどで分解し,そのパターンの比較から蛋白質を同定することもできる.質量分析法の改良によってペプチドの精密な質量を簡便に測定することができるようになったため,これをペプチドマップに応用することが可能になった.すなわち,データベース中のすべての蛋白質について予想されるペプチドの質量を計算してデータベース化しておき,これと質量測定の結果を突き合わせることによって蛋白質を同定する.質量測定の精度が高ければ,ほんの数個のペプチドの質量だけから蛋白質を特定することが可能である.このような検索を行うサーバとして以下のものがある.
1.mowse@dl.ac.uk(Imperial Cancer Research Fund) 2.cbrg@inf.ethz.ch(Computational Biochemistry Research Group) <http://cbrg.inf.ethz.ch/subsection3_1_3.html> 3.<http://chait-sgi.rockefeller.edu/cgi-bin/prot-id/1>(Rockefeller Univ.) 4.<http://rafael.ucsf.edu/MS-Fit.html>(Univ. California San Francisco)
DDBJ <http://sakura.ddbj.nig.ac.jp/> GenBank <http://www3.ncbi.nlm.nih.gov/BankIt/> EMBL <http://www.ebi.ac.uk/subs/emblsubs.html>
DDBJの登録システムであるSAKURAのホームページおよび入力中の画面を図10に示す.