配列データベース

分子生物学の分野において最も早く統合化された情報は蛋白質および核酸の配列データベースであった。糖あるいは脂質などと異なり、核酸および蛋白質はその機能情報を配列として一次元的に表現することができ、このこともこれらのデータベースが進展してきた一因であろう。ここではDNAバンクで収集・提供をおこなっている代表的な配列データベースについて解説をおこなう。

1.核酸配列データベース

DNAバンクではGenBank、EMBL、DDBJの遺伝子配列データベースをデイリーアップデートで収集、提供している。これらの配列データベースはパブリックに使用できる遺伝子配列を集めたものである。これらのデータベースはそれぞれ2ヶ月ごとに新しいリリースが出されており、これら3者でデータの相互交換をおこなっている。そのほかにDNAバンクではこれらのデータベースを統合して冗長性を排除したdna_allデータベースを構築しており、配列検索をおこなう場合に、その時の最新のデータ全体に対して検索ができるようになっている。


2.蛋白質配列データベース

DNAバンクではPIR, SWISS-PROTを(蛋白質配列データベース)を収集、提供している。遺伝子配列データベースと異なり、これらのデータベース間ではデータの相互交換がおこなわれていない。そのためDNAバンクではこれらのデータベースを統合したprotein_allを作成している。また蛋白質の配列データベース全体をカバーするnr_proteinデータベースを構築しており、このnr_proteinデータベースはSwiss-Prot+PIR+GenPept+PDBとそれらのデイリーアップデートを含んでいる。またnr-proteinのうちレギュラーリリース分をまとめたものもnrprとして公開している。このようなデータベースを利用することによって遺伝子配列と同様にその時の最新のデータ全体に対して検索ができるようになっている。


3.モチーフデータベース

PrositeはUniversity of GenevaのAmos Bairochによって作成されている蛋白質のモチーフデータベースである。9つのファイル(experts.txt, pautindx.txt, profile.txt, prosite.dat, prosite.doc, prosite.get, prosite.lis, prosite.prg, prosuser.txt)からなっておりデータファイルはprosite.datである。


農業生物資源研究所 遺伝資源第二部 前田美紀
(1997.8.27 by miki)