第4章   インターネットを使ったデータベースへのアクセスとサービス

Nentrez 

    鵜川義弘

Nentrez(ナントレ)は,核酸,アミノ酸配列と,それに関連する文献情報をネットワーク経由で検索するフリーソフトウェアである.これは,NCBI(MEDLINEというオンライン文献検索サービスで有名な米国国立衛生研究所(NIH)内,米国国立医学図書館に属する,米国バイオテクノロジー情報センター,現GenBank(ジェンバンク)担当機関)で開発された評判の高いソフトである「Entrez」の,ネットワーク版(Network-Entrez)であり,Entrezと同等の機能を持つ.現在のバージョンは2.001である.Entrez(アントレ)は,GenBank/EMBL/DDBJの核酸配列データ,SWISS-PROT,PIR,PDB,PRFアミノ酸関連データ,米国,欧州の特許データ,さらに,これらに関係するMEDLINE文献データをCD-ROMで提供するものである.Entrezの画期的な点は以下の3点である.

特徴


1.CD-ROMの実費配布(Nentrezではネットワーク上のデータを使用するのでCD-ROMは使わない)
 十数年前に活動を開始したGenBank/EMBL/DDBJのDNAデータをはじめとする生物情報データベースは,無料で供給されており,誰にも著作権がないパブリックドメインといわれるものである(このため,民間のDNAデータベース供給各社は,DNAデータを売るのではなく,その検索ソフトを売っていることになっている).GenBankを担当する機関そのものから提供され,利潤を追求するものではないので,民間のDNAデータベース供給各社の定価を大幅に下回る,CD-ROM年間6回供給で80ドル程度という,ほぼ実費で配布を受けることができる.

2.関連するMEDLINE文献データも入っている
 一方,長い歴史を持つ文献情報は,検索が有料であるのがこれまでの常識であり,実費で供給されているDNAのCD-ROMに納めることはできなかった.しかし,上部組織である米国国立医学図書館でMEDLINEの大量の文献情報が扱われているという好条件に支えられ,配列情報に直接関連する文献データも,EntrezのCD-ROMに入れることができたのである.

3.検索方法に"ネイバリング(neighboring)"の概念を導入(図1)
 文献やDNA配列などのキーワード検索は,ANDやOR等の集合の概念を使用するのが従来の方法である.Entrezも最初のデータを絞り込むのには同じ方法を用いる.その後,Entrezで


図1 "ネイバリング(neighboring)"の概念

は,検索結果と似ている"ネイバー"(近傍)を探せるのが特徴である.ネイバーとは,検索したDNA配列をアミノ酸に翻訳した配列であったり,それが出ている文献であったりする.文献のネイバーを探すなら,今度はその文献のタイトルと似たタイトルを持つ文献,DNA配列の場合は,それと似た配列を持つDNAを探すことが瞬時にできる.はなはだ人間らしい直感的な検索ができるシステムとなっている.

入手方法


さて,EntrezのCD-ROMには泣き所があった.近年,ゲノムプロジェクトの発足をはじめとする研究の進歩に伴い,収集したDNAデータが指数関数的に増え,データがCD-ROM1枚に収まらなくなってしまったのである.現状では2枚のCD-ROMを必要に応じて取り替える方法がとられている.別の方策として,CD-ROMのデータを検索する代わりにデータをインターネットの先,米国に置き,そこを直接検索するNentrezが登場した.NentrezでできることはEntrezと同じである.インターネット直結のMacintoshであれば,CD-ROMのドライブを持たなくても,すなわちCD-ROMの配布を受けなくともEntrezの最新CD-ROMを持っているのと同じ検索を行うことができる.Nentrezは,
ftp://ncbi.nlm.nih.gov/entrez/network/Nentrez.hqx
にある.ついでに,マニュアル(Entrez Manual)は,
ftp://ncbi.nlm.nih.gov/entrez/docs/entrezdoc.hqx

にあるので,FTPなどで同時に入手する.これはEntrez用のマニュアルであるが,以下で述べるネットワーク番号の登録とユーザ名の登録のインストール作業を除き,NentrezとEntrezの機能は同じである.FTPの仕方は,Fetchの項を参照されたい.

使用者のネットワーク番号の登録


Nentrezは,利用に先立ち,ユーザの使用するネットワーク番号(IP address)の登録が必要である.申請すべき項目は,申請者の,

Name, Affiliation, Postal, address, E-mail address, Telephone number

と,ネットワーク番号,

IP addresses of the computers that will run the Entrez clientsoftware (all computers on a subnet may be denote as, for example,130.14.25.*)

であり,これを,net-info@ncbi.nlm.nih.gov宛に電子メールで送る.電子メールの送付方法は,4章「Eudora」を参照されたい.申請はネットワーク管理者でなくとも可能であるが,IPアドレス等が関係するし,同じSubnetに属する人が何度も重複して申請しなくてよいように,ネットワーク管理者がいれば,一言相談するといいと思う.
 筆者は次のように書いた.

   Date: Wed, 10 Nov 93 18:27:49 +0900
 To: net-info@ncbi.nlm.nih.gov
 From: ugawa@disc.dna.affrc.go.jp
 Subject: Nentrez IP address

 Dear net-info@ncbi.nlm.nih.gov,

 Please register the following address to use "Nentrez".

 Name:           UGAWA Yoshihiro
 Affiliation:    DNA Information and Stock Center,National Institute of Agrobiological 
         Resources
 E-mail:         ugawa@disc.dna.affrc.go.jp
 Postal Address: 2-1-2 Kan-non-dai, Tsukuba City, 305 Japan
 Telephone:      +81-298-38-7456
 Fax:            +81-298-38-7408
 IP address:     150.26.1.*   150.26.2.*
 なお,この件に関しては,http://www.ncbi.nlm.nih.gov/Search/client.htmlに案内がある.Mosaicなどで見てほしい.

インストールの方法(ユーザ名の登録)


 ftpしたファイルNentrez.seaを,例えばEntrezというフォルダに入れ,ダブルクリックすると,以下のようなファイルができる(図2).


図2 Nentrezのファイル

 1)
まずnetentcfを起動して,使用するユーザの電子メールのアドレスの登録を行う.最初のEntrezCF画面(図3)で「Entrez Network Service」を選び「Accept」ボタンをクリックする.
 2)
次の,Network Entrez Configuration画面(図4)の「Dispacher Specify」のボタンをクリックする.そうすると,Dispatcher Selection画面が(図5)出てくるので,空白になっているUser Nameの部分に,自分の電子メールのアドレスを入力する.ここにUser Nameが入っていないとnetentcfを正常終了できないばかりか,後でNentrezを起動したときも,システムフォルダの初期設定フォルダ内にncbi.cnf(図6)が見つからないと言われて起動できない.


図3 「EntrezCF」画面


図4 Network Entrez Configuration画面


図5 Dispatcher Selection画面


図6 ncbi.cnfのアラート

使用方法


 Entrezには3つの画面がある.キーワードの入力画面(図7),文書選択画面,文書内容表示画面である.起動時にはキーワードの入力画面が現れる.選択可能なデータベースのタイプMEDLINE,核酸,アミノ酸配列のいずれかを選択(Field,Modeも同様に選択する)し,「Term: 」の部分に検索したい文字列を入力する.「Accept」をクリックすると検索が始まる. キーワードの入力画面の下部では,データの絞り込み方法を変えられるようになっている.通常入力されたキーワードは論理積(AND)がかかっているが,「binding」を「mutation」にドラッグすることで,この2つの論理和(OR)をとる指定ができる.また,「Total」の部分がハイライトしている数字の部分ではなく「Special」の部分をクリックしハイライトさせると,この例ではキーワード「ras」が「title」にのみ現れるものに限定することができる.
 ここで「Retrieve」ボタンを押し,図8の文書選択画面が現れたらチェックボックス内にチェックを入れ,「Neighbor」ボタンをクリックすると,これらに似た"ネイバー"が検索できる.



図7 キーワードの入力画面


図8 文書選択画面

 この画面でさらに,文書のアイコン部分をクリックすると図9のような文書内容表示画面が表示される.表示フォーマットは自由に変えられるし,データをファイルに取り出すことも可能である.その他の使用方法は,MicroSoft Wordで書かれたマニュアル「Entrez Manual」に詳しいのでそれを見てほしい.