目次索引著者紹介

第3章

 目的いろいろインターネット活用術――3

遺伝子解析におけるネットワークの利用

藤田信之

 配列データベースの検索,ホモロジー検索,モチーフ検索,さらには自分が決定した配列のデータベースへの登録など,遺伝子・蛋白質の配列解析において,ネットワークを利用する(あるいはせざるを得ない)機会は多い.この分野は,比較的初期の頃からネットワークと密接に関わってきた.具体的な利用形態は時代とともに変遷してきており,現在の主流は,

 である.また機関によっては,GCGなどの解析ソフトウェアをオンラインで利用できるところもある.(a)の電子メールサーバ(以下メールサーバと呼ぶ)というのは,解析したい配列や各種のパラメータを一定の書式に従って記述したものを電子メールでサーバに送り,解析結果も電子メールで受け取る形態のものを言う.(b)はWWWのフォーム機能を利用してデータを入力し,サーバ側が解析した結果を即座にWWWの画面に返してくれるもの,(c)は(b)と同じ入力形態をとるが,結果は電子メールで返すものを指す.(d)の専用クライアントを使うものとしては,この後に紹介するNentrezが有名である.以下,代表的なサーバの紹介を通して,遺伝子解析のいろいろな場面でいかにネットワークが利用できるかを見ていくことにする.以下の説明で,メールアドレスを記したものはメールサーバを直接利用する場合のアドレスを,URLを記したものはWWW上の入力フォームの所在を示す.なお,メールサーバを直接利用するためには,サーバごとの依頼メールの書式を知っている必要がある.本文にhelpとだけ書いたメールをそれぞれのアドレスに送ると,依頼メールの書式や解析結果の見方などの詳しい情報を得ることができる.

1.配列データベース

(1)塩基配列データベース
 塩基配列を集めたデータベースとしては,GenBank,EMBL,DDBJが代表的である.それぞれ米国のNCBI(National Center for Biotechnology Information),欧州のEBI(European Bioinformatics Institute),日本の国立遺伝学研究所(日本DNAデータバンク)が構築・運用を行っている.これら3者の間では入力の分担と入力データの相互交換が行われており,内容にはほとんど差がない.アクセション番号も共通に管理されている.ただしデータの改訂に対する対応の違いなどから微妙な差も生まれており,3者を結合して重複を取り除いたもの(nonredundant databaseと呼ばれる)もいくつかの機関から提供されている.これらのデータベースは数カ月おきに定期リリースが発行されるほか,毎日更新される最新のデータもネットワーク上で公開されている.

(2)アミノ酸配列デーベース
 アミノ酸配列を集めたデータベースとしては,PIRとSWISS−PROTがよく知られている.PIRは米国のNBRF(National Biomedical Research Foundation)を中心にドイツのMIPS(Martinsried Institute for Protein Sequences),日本のJIPID(国際蛋白質情報データベース)が共同構築している老舗のデータベースである.SWISS−PROTはEMBLデータベースからの翻訳をもとに独自の注釈を加えたもので,週ごとの最新データが公開されていることもあって,ホモロジー検索に使われることが多い(SWISS−PROTはPROSITEデータベースの作者としても知られているジュネーブ大学のAmos Bairoch氏の活動に負うところが大きいのだが,この原稿を書いている時点で,SWISS−PROTが財政上の理由から存亡の危機に瀕しているというニュースが伝わってきた.各種のデータベースへのリンク情報など非常に付加価値の大きなデータベースだけに,なんとか存続してもらいたいものである).これ以外にGenBankデータベースから機械的に翻訳した配列を集めたGenPeptというデータベースがある.詳しい注釈は付けられていないが,GenBankと同様に毎日データが更新されるため,主にホモロジー検索に利用される.

(3)その他
 これらの大規模なデータベース以外にも,生物種ごとの情報を集めたデータベースや,特定の機能を持つ遺伝子や蛋白質のデータを集めたデータベースが多数あり,専用の検索ツールとともにネットワーク上で公開されている.ここではいちいち紹介することはしないが,<http://www.expasy.ch/www/amos_www_links.html<変更>,<http://www.unl.edu/stc-95/ResTools/BioTools/biotools10a.html>などのインデックス情報が役に立つだろう.


データが見つからない
雑誌に配列のアクセション番号が書いてあるにもかかわらず,いくら探しても見つからないということがある.これには理由がある.GenBank,EMBL,DDBJに新規の配列を登録する際に,希望によって,論文が公表されるまでの間データの公開を差し止めることができる.つまりアクセション番号はあっても実際のデータが公になることはない.このようなデータは(通常はデータ提供者からの通知によって)データバンク側が論文が公表されたことを確認した後に公開されるが,中にはいつまでも確認できずに未公開のままになるものもある.このようなケースに出くわした時は,論文がすでに公表されていることをddbj@ddbj.nig.ac.jpに知らせるようにしよう.

2.配列データベースの検索

(1)Entrez
 配列データベースをキーワードやアクセション番号で検索するには,いろいろなネットワークサービスが利用できるが,ここでは米国のNCBIが提供しているEntrez(アントレと呼ぶ)を紹介する.Entrezは塩基配列,アミノ酸配列に加えて,関連する文献情報(MEDLINEのサブセット),さらに最近では蛋白質の構造情報やゲノム情報をも取り込んだ統合データベースである.データベース間の相互参照ができるほか,それぞれのデータベースについてNeighborという独自の概念が取り入れられており,例えば配列データベースであればあらかじめ総当たりでホモロジー検索をした結果が登録されているため,似た配列を瞬時に探し出して参照することができる.もともとは検索ソフトウェアとともにCD−ROMで配布されていたが,データ量の増加に伴って,現在ではネットワーク上のサーバを利用する形態が主流になっている(CD−ROM版は1996年の8月版を最後に姿を消すことになっている).ネットワーク版のEntrez(NentrezまたはNetwork Entrez)を利用するには専用のクライアントソフトを入手する必要がある<ftp://ncbi.nlm.nih.gov/entrez/network/>.以下のディレクトリに,Macintosh,Windows,各種のワークステーションに対応したものが置かれている.詳しい解説書が同梱されているのでそれに従えばよい.Nentrezによる検索の例を図1に示す.なお,ネットワーク版のデータは現在では毎日更新されている.  ネットワーク版のEntrezには,もう1つ,WWW上で利用できるものとしてWeb Entrez,<http://www3.ncbi.nlm.nih.gov/Entrez/index.html>がある(図2).Look & Feelはかなり異なるが,機能的にはNentrezとほぼ同等である.筆者はCD−ROM版と同じインターフェースで使えること,サーバの応答が比較的良好なことからNentrezを使用しているが,これは好みの問題であろう.

図1 Nentrezによるデータベースの検索図2 Web Entrezによるデータベースの検索


文献データベースとしてのEntrez
ネットワーク版のEntrezでは,CD-ROM版に比べてより大きなMEDLINEのサブセットを検索することができる.これがどの程度の雑誌をカバーしているかをみるために,筆者の所属する研究室から過去数年間に発表された論文(欧文)を検索してみた.フルセットのMEDLINE(Paper Chase)でヒットした102報のうち,実に96報がEntrezでも検索することができた.雑誌の種類でいうと33誌のうち29誌が該当した.分野によって偏りが大きいと思われるが,分子生物学関係の主な雑誌は網羅されていると考えてよいようである.Current Contentsなどと併用すれば,日常の文献検索には十分である.なによりも無料で検索できるのが大きな魅力である.

(2)DBGET
 日本国内でサービスが行われているものの例として,ゲノムネット(京大化研および東大医科研)がサービスを行っているDBGET<http://www.genome.ad.jp/dbget/dbget.html>がある.DBGETは図3に示すように種々のデータベースを相互に関連づけて統合的に扱うことを目的としている.これを実現するためにLinkDBという独自のデータベース(リンク情報を扱うデータベース)を導入している点に特徴がある.これによって,もともとのデータベースに記載されているリンク情報に限定されずに,さまざまなデータベースを有機的に結びつけることができるようになっている.

 図3 DBGETにおけるデータベース間のリンク

(3)その他のサーバ
 DBGETと同じようにデータベース間のリンク情報を最大限に活用することを目指した検索システムとして,EMBLのThure Etzoldらが開発したSRSがある.これを利用した検索サーバがヨーロッパを中心として各地で稼動している.代表的な例として,<http://www.embl-heidelberg.de/srs/srsc>(図4)がある.また日本国内でも農業生物資源研究所<http://www.dna.affrc.go.jp/htdocs/SRS/index.html>が試験的にサービスを行っている.また,WAISという汎用の検索システムを利用したサービスも多数あるが,国内で利用できるものとしては,<http://ftp2.nig.ac.jp:8000/SFgate/dna.html>,<http://www.dna.affrc.go.jp/ htdocs/wais/wais.html>などがある.

 図4 SRSによるデータベースの検索

3.ホモロジー検索

 配列データベースに対するホモロジー検索は,ネットワークの最も有効な利用方法の1つである.現在はまだ,メールサーバによるもの,およびWWWのフォーム機能を利用してメールサーバに検索依頼を行うものの2つが主流であるが,BLASTサーバの中にはWWW上でリアルタイムに検索できるものも増えており,今後はこちらが主流になるものと思われる.ここでは国内のサーバを中心に紹介する.

(1)BLAST法
 BLAST法はホモロジー検索の方法としては最近最もよく利用されているものである.他の方法に比べて桁違いに高速であるため,例えば配列決定の途中の部分配列のようなものでも,気軽に検索にかけることができる.BLAST法はギャップを考慮しないため検出感度や選択性が低いと考えられがちだが,実際には他の方法と比べてそれほど遜色はない.また,複数の相同領域の間に大きなギャップが存在したり,繰り返し配列が存在するために他の方法では適切なアラインメントが得られないような場合でも,BLAST法ならば相同領域の「組」として漏れなく検出できるメリットもある.BLASTは主に,blastp(アミノ酸配列vsアミノ酸配列データベース),blastn(塩基配列vs塩基配列データベース),blastx(塩基配列vsアミノ酸配列データベース),およびtblastn(アミノ酸配列vs塩基配列データベース)の4つのプログラムからなる.このうちblastxとtblastnでは,塩基配列を機械的に6つの読み枠で翻訳し,アミノ酸配列レベルで比較が行われる.国内で稼働中のサーバとしては以下のものがある.

 1.blast@nig.ac.jp(日本DNAデータバンク)
   <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html>
 2.blast@genome.ad.jp(ゲノムネット)
   <http://www.genome.ad.jp/SIT/BLAST.html>
 3.blast@dna.affrc.go.jp(農業生物資源研究所)
   <http://www.dna.affrc.go.jp/htdocs/homology/homology.html>
 4.blast@ncc.go.jp(国立がんセンター)
 例としてゲノムネットのBLASTサーバの入力フォームを図5に示す.検索プログラム,検索対象のデータベース,その他のパラメータを指定し,コピー&ペーストで配列を貼り込んだ後,「Exec」と書かれたボタンを押す.入力フォームの中に「SEG」,「XNU」というフィルタを設定する項目があるが,これを使うと検索配列(ただしアミノ酸配列に限る)の中に含まれる繰り返し配列や酸性ドメインなどの冗長な配列をマスクすることによって,無意味なアラインメントが多数出力されるのを未然に防ぐことができる.

 図5 WWW上でのホモロジー検索(ゲノムネットの例)

 このサーバの特徴は,BLAST法の高速性を生かして,検索の結果を電子メールとしてではなくWWWの画面上に返してくれる点である.しかも返される結果の中には配列データベースへのリンクが張られているため,即座に関連情報にたどり着くことができる(図6).同じようにリアルタイムで検索が行えるサーバとしては,他にも<http://www.ncbi.nlm.nih.gov/BLAST/>,<http://www.gdb.org/Dan/gq/gq.form.html>,<http://genome.eerie.fr/blast/blast-query.html>,<http://ulrec3.unil.ch/software/EPFLBLAST_form.html>などがある.また,<http://www.expasy.ch/cgi-bin/BLAST.pl<変更>,<http://dot.imgen.bcm.tmc.edu:9331/seq-search/protein-search.html>などのように,上記のサーバと連動し,さらに付加的な情報を加えたり,出力結果の二次的な解析を行うサービスもある.

 図6 BLASTの結果から配列データベースを参照する

(2)FASTA法
 FASTA法は最近までは最も一般的なホモロジー検索の方法であった.BLAST法と違ってギャップを考慮したアラインメントを行ってくれるため,今でも好んで使われることが多い.ギャップ付きのアラインメントを行うとは言っても,データベースの中から候補を絞り込む段階ではある種の近似が行われており,これによって高速化が図られている.
 プログラムにはfasta(アミノ酸配列vsアミノ酸配列データベース,塩基配列vs塩基配列データベース)とtfasta(アミノ酸配列vs塩基配列データベース)の2種類があり,後者では塩基配列データベースを6つの読み枠で翻訳したものに対してアミノ酸配列レベルで検索が行われる.fastaはアミノ酸配列と塩基配列の両方で共通に用いられる.
 最初にデータベースを走査する際に用いられるのがk-tuple(KTUP)と呼ばれるパラメータで,FASTA法の感度はこれに大きく依存する.アミノ酸配列の場合,k-tupleの標準値としては「2」を採用しているところが多いが,「1」を指定することによってある程度感度が向上することが期待できる.ただし検索時間はかなり長くなる.塩基配列の場合k-tupleの標準値は「6」であるが,これ以上値を小さくしてもほとんど意味がないばかりか,検索に膨大な時間を費やすことになるので,避けるべきである.国内のサーバとしては以下のものがある.

 1.fasta@nig.ac.jp(日本DNAデータバンク)
   <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html>
 2.fasta@dna.affrc.go.jp(農業生物資源研究所)
   <http://www.dna.affrc.go.jp/htdocs/homology/homology.html>
 3.fasta@ncc.go.jp(国立がんセンター)
(3)Smith-Waterman法
 Smith-Waterman法では,FASTA法のように近似を行うことなく,データベース中のすべての配列との間で忠実にアラインメントを行ってホモロジースコアを算定する.そのため計算量は他の方法とは比較にならないほど膨大になる.現在一般に利用できるメールサーバの多くは,MPsrchというプログラムを使用しており,これにはMasParという数千から数万のプロセッサを持つ超並列型のコンピュータが使われている.Smith-Waterman法は近似を排して厳密に比較を行うため,進化的に離れた配列であっても,それが統計的に有意である限り見落とすことはないという安心感がある.しかし現実問題としては,FASTA法やBLAST法でも十分に高い感度を持っており,Smith-Waterman法がそれらに比べて際立って優れているわけではないようである.よほど特殊な場合でない限り,わざわざSmith-Waterman法を用いる必要はないかもしれない.
 検索配列およびデータベース配列の種類の組み合わせに応じて大きく4つのプログラムが準備されている.ただしBLASTの場合とは反対に,違う種類の組み合わせの場合には,アミノ酸配列の方をIUPACのシンボルを使って塩基配列に「逆翻訳」した上で比較が行われる.MPsrchを使ったサーバの例として以下のものがある.農業生物資源研究所のWWWページを図7に示す.

 図7 Smith-Waterman法によるホモロジー検索

 1.mpsearch@dna.affrc.go.jp(農業生物資源研究所)
   <http://www.dna.affrc.go.jp/htdocs/homology/homology.html>
 2.blitz@ebi.ac.uk(European Bioinformatics Institute)
   <http://www.ebi.ac.uk/searches/blitz.html>
 3.mpsearch@ncc.go.jp(国立がんセンター)

4.モチーフ検索

 配列全体にわたるホモロジーがない場合でも,酵素の活性中心やDNA結合部位など,機能が共通する部分にはよく似た配列パターンが見つかることがある.逆に多くの蛋白質に共通する配列パターンが見つかれば,それは何らかの機能を担っていると予想することができるだろう.このような短い配列パターンをモチーフと呼ぶ.一般にホモロジースコアは相同領域の長さに依存するため,ホモロジー検索だけから短いモチーフを見つけ出すことは難しい.そこでモチーフの配列をあらかじめ抜き出してデータベース化しておき,それに対して比較を行うという方法が用いられる.

(1)アミノ酸配列のモチーフ
 アミノ酸配列のモチーフを集めたデータベースとしてはPROSITE <http://www.expasy.ch/sprot/prosite.html<変更>がある.最新の13.1版には1167種類のモチーフが収められている.単にモチーフを定義するだけでなく,それぞれのモチーフについて詳しい解説がなされているのもPROSITEの大きな特徴である(図8).PROSITEの各モチーフに対応した局所的なアラインメントを集めたBLOCKSというデータベースもある<http://www.blocks.fhcrc.org/>.BLOCKSのデータを使って,モチーフ内の位置ごとに重み付けを行ったスコア行列を算定して検索を行うことにより,PROSITEを直接用いるよりも検出感度を上げることができる.PROSITEまたはBLOCKSを使ったモチーフ検索のサービスは多数あるが,代表的なものを以下にあげる.

 図8 PROSITEデータベースのエントリーの例

 1.motif@genome.ad.jp(ゲノムネット)
   <http://www.genome.ad.jp/SIT/MOTIF.html>
 2.prosite@embl-heidelberg.de(European Molecular Biology Laboratory)
   <http://www.ebi.ac.uk/searches/prosite.html>
 2.blocks@howard.fhcrc.org(Fred Hutchinson Cancer Research Center)
   <http://www.blocks.fhcrc.org/
(2)塩基配列のモチーフ
 塩基配列についても同様にモチーフ(またはコンセンサス配列)というものを定義できるが,それを検索することは,アミノ酸配列の場合以上に難しい.転写因子およびその結合配列のデータを集めたTRANSFACというデータベースがあり<http://transfac.gbf-braunschweig.de/TRANSFAC/browse/index.html>,その中に記述されたパターンを検索するサービスも下記のサイトで行われているが,結果の解釈については十分に慎重になる必要がある.なお,同様のデータベースとしてTFDがあるが,残念ながら1993年以来メジャーな改訂は行われていない.
 1.<http://www.genome.ad.jp/SIT/TFSEARCH.html>(ゲノムネット)
 2.<http://www.gsf.de/cgi-bin/matsearch.pl>
   (National Research Center for Environment and Health)
 3.<http://transfac.gbf-braunschweig.de/cgi-bin/matSearch/matsearch.pl>
   (Gesellschaft fur Biotechnologische Forschung)
(3)蛋白質のドメイン
 蛋白質においてモチーフよりは大きなドメインに相当すると考えられる配列を集めてデータベース化し,これを対象としてBLAST検索を行うサービスもある.
 1.sbase@icgeb.trieste.it(International Centre for Genetic Engineering and Biotechnology)
   <http://www.icgeb.trieste.it/sbase/>
 2.prodom@toulouse.inra.fr(Institut National de la Recherche Agronomique)
   <http://protein.toulouse.inra.fr/prodom.html

5.マルチプルアラインメント

 3本以上の配列をそれらの相同性に基づいて並べることをマルチプルアラインメントと言う.以前は系統樹を作成するための前段階として分子系統学,分子進化学の分野で使われることが多かったが,パソコン上やネットワーク上で手軽に行えるようになったこともあって,今では分子生物学の分野でもごくあたりまえに使われるようになった.実際,1対1のアラインメント(ホモロジー検索)ではわからない弱い保存領域がマルチプルアラインメントによって発見されることも多い.マルチプルアラインメントを行うためのプログラムとしては,ClustalW,MSA,treealign(malign)などがある.これらを使ったネットワークサービスの例として以下のものがある.なおClustalWはMacintoshやMS−DOSにも移植されており,<ftp://ftp.ebi.ac.uk/pub/software/>などからプログラムを入手することができる.
 1.malign@nig.ac.jp(日本DNAデータバンク)
   <http://www.ddbj.nig.ac.jp/htmls/E-mail/Welcome.html>
 2.clustal@ibc.wustl.edu(Washington University)
   <http://alfredo.wustl.edu/msa/clustal.cgi>
 3.<http://dot.imgen.bcm.tmc.edu:9331/multi-align/multi-align.html>
   (Human Genome Center, Baylor College of Medicine)
 4.<http://www.ibcp.fr/clustalw.html>
   (Institute of Biology and Chemistry of Proteins)
 いずれのプログラムを用いるにせよ,よい結果を得るためにはデータの下準備が必要なことが多い.特に気を付ける点として,比較するすべての配列の間にホモロジーがあること(1つでも関係のない配列が混じっているとエラーを誘発するなどの障害になる),比較する配列の長さおよび保存領域の位置がだいたい揃っていること(つまり末端部分も含めて極端に大きなギャップがないこと)があげられる.後者が問題になる場合は,保存領域の前後だけを切り出して比較するなどの工夫が必要である.

6.コード領域の予測

 いろいろな生物についてゲノム配列を決定するプロジェクトが進行しており,長大なゲノム配列の中からいかにして遺伝子を同定するかが大きなテーマになっている.ゲノム配列の中からコード領域を予測するためのサービスとしては,
 1.grail@ornl.gov(Oak Ridge National Laboratory)
 2.genemark@ford.gatech.edu(Georgia Institute of Technology)
   genemark@embl-ebi.ac.uk(European Bioinformatics Institute)
などが知られている.このうちGRAILは高等動物,中でもヒトの配列に対して最適化されており,さらに最近ではスプライス部位の予測なども取り入れることによって,ヒトの配列についてはコード領域の90%以上を正しく予測できると言われている.一方のGeneMarkは,どちらかと言えば原核生物のゲノム配列からコード領域を予測する際によく用いられている.生物種ごとの学習結果が保存されており,生物種を指定することによって精度の高い予測を行うことができる.現在GeneMarkが対応している生物種は以下の通りである.また予測結果の例を図9に示す.
 Arabidopsis thaliana	Mycoplasma capricolum
 Caenorhabditis elegans	Gallus gallus
 Dictyostelium discoideum	Escherichia coli [DEFAULT]
 Escherichia coli phages	Euglena gracilis
 Euglena gracilis chloroplasts	Xenopus laevis
 Drosophila melanogaster	Homo sapiens
 Klebsiella pneumoniae	Lactococcus species 
 Mycobacterium leprae	Mus musculus
 Plasmodium falciparum	Rattus norvegicus
 Salmonella typhimurium	Schizosaccharomyces pombe
 Bacillus subtilis	Mycobacterium tuberculosis
 Phage T4	Lytechinus pictus
 Saccharomyces cerevisiae
 図9 GeneMarkの結果をMacGSで表示したところ

 スプライス部位(もしくはエクソン)の予測に力点をおいたものとして,

 1.geneid@bir.cedb.uwf.edu(Molecular Biology Computer Research Resource)
   geneid@darwin.bu.edu(Biomolecular Engineering Research Center)
 2.netgene@cbs.dth.dk(Technical University of Denmark)
 3.service@bchs.uh.edu(Baylor College of Medicine)
   <http://dot.imgen.bcm.tmc.edu:9331/gene-finder/gf.html
などがある.単にdonor,acceptor配列を検索するだけではなく,コード領域の予測や配列データベースとの比較などを取り入れることによって予測精度を上げる工夫がなされている.

7.蛋白質の同定

 カラムや電気泳動で分離した蛋白質が何であるかを同定するためには,活性,免疫原性などが指標にされる.しかし,その蛋白質の配列がすでにデータベースに登録されていれば,種々の指標を使ってデータベースを検索することにより,蛋白質を特定できる場合がある.最も一般的なのはN末端からのアミノ酸配列を決定してデータベースと比較することであるが,N末端が翻訳後修飾を受けている場合には適用できない.もっと一般的な指標であるアミノ酸組成,等電点,およその分子量などを指標として,データベースの中から候補を選び出すこともできる.この種のサービスとしては例えば以下のものがある.
 1.<http://www.embl-heidelberg.de/aaa.html>(European Molecular Biology Laboratory)
 2.<http://www.expasy.ch/ch2d/aacompi.html>(University of Geneva)<変更>
 3.<http://www.expasy.ch/www/guess-prot.html>(University of Geneva)<変更>
 蛋白質をプロテアーゼなどで分解し,そのパターンの比較から蛋白質を同定することもできる.質量分析法の改良によってペプチドの精密な質量を簡便に測定することができるようになったため,これをペプチドマップに応用することが可能になった.すなわち,データベース中のすべての蛋白質について予想されるペプチドの質量を計算してデータベース化しておき,これと質量測定の結果を突き合わせることによって蛋白質を同定する.質量測定の精度が高ければ,ほんの数個のペプチドの質量だけから蛋白質を特定することが可能である.このような検索を行うサーバとして以下のものがある.
 1.mowse@dl.ac.uk(Imperial Cancer Research Fund)
 2.cbrg@inf.ethz.ch(Computational Biochemistry Research Group)
   <http://cbrg.inf.ethz.ch/subsection3_1_3.html>
 3.<http://chait-sgi.rockefeller.edu/cgi-bin/prot-id/1>(Rockefeller Univ.)
 4.<http://rafael.ucsf.edu/MS-Fit.html>(Univ. California San Francisco)

8.塩基配列の登録

 自分が決定した塩基配列をデータベースに登録するためにはいくつかの方法がある.最近まで最も一般的だったのはAuthorinという入力ソフトウェアを使う方法である.Macintosh用およびNEC PC9801用のAuthorinをDDBJから日本語マニュアル付きで入手することができる.これを使ってパソコン上でデータの入力や注釈づけを行い,出来上がったデータ(テキストファイル)を電子メールまたはフロッピーディスクでDDBJに送付する.しかし,AuthorinをIntelliGenetics社から引き継いだはずのGenBank(NCBI)が開発の主力を後継ソフトであるSequinに移していることもあって,Authorinについては十分なサポートは行われていないのが現状である.例えばMacintosh版の場合は32ビットアドレッシングに対応していないため,最近の機種では使えないという問題がある.
 Authorinに代わる方法として,DDBJ,GenBank(NCBI),EMBL(EBI)はそれぞれ,WWW上のフォームを使って登録を受け付けるサービスを始めている.それぞれのURLは以下の通りである.
 DDBJ <http://sakura.ddbj.nig.ac.jp/>
 GenBank <http://www3.ncbi.nlm.nih.gov/BankIt/>
 EMBL <http://www.ebi.ac.uk/subs/emblsubs.html
 図10 SAKURAによる塩基配列の登録

 DDBJの登録システムであるSAKURAのホームページおよび入力中の画面を図10に示す.