GenbankとDDBJデータファイルの読み方

GenbankとDDBJは同じファイルフォーマットを採用しているので、ここでは例としてGenbankのJ04040を例にしてデータを解説する。 LOCUS行はデータの最初に必ず表示される。この場合はデータの名称が "HUMGLUC" で、1062bpの長さのmRNAで、1994年11月8日に登録されたデータである。 DEFINITION項には配列の生物学的な名称が記述されている。この配列はヒトグルカゴンのmRNAである。 ACCESSION項にはアクセッション番号が示されている。この番号は遺伝子配列データベースに固有の番号であり、データを探すときに有用である。ここでは "J04040" である。 NID項は新しいID番号である。ここでは "g183269" である。 KEYWORDS項にはこの配列に対するキーワードを示している。ここでは "glicentin" と "glucagon" である。 SOURCE項にはこの遺伝子配列をとった原料の生物が示される。この場合はヒトの脳幹から単離したクローンであり、ヒトは真核生物の・・・ヒトである。 REFERENCE項にはこの配列を単離したことが報告された論文が示されている。またMEDLINEの行はこの論文がMEDLINEで引用できることを示しており、その場合の番号はここでは88330860である。 FEATRURES項の中に具体的な実験的な情報が入っている。 原料はヒトであり2q36-37にマッピングされている。 この配列はmRNAの1〜1062残基めを含む。 "<1" は1残基めよりも上流に配列が続いていることを示す。 38〜97残基めがシグナルペプチドに該当する。 コーディング領域は38〜580残基めであり、その配列は上に示す通りである。コドンの読み枠は1残基めから始まり、PIRのIDのg183270に該当する。 このmRNAの98〜304残基がペプチドとなり、glicentinができる。 同様に194〜280残基がglucagonとなり、287〜304残基、311〜421残基がintervening peptide Iとなる。428〜466残基がintervening peptide II、473〜571残基がglucagon-like peptide IIとなる。 この配列は340個のアデニン、200個のシトシン、215個のグアニン、307個のチミンを含んでいる。 染色体2q36-37にマッピングされており、81残基上流にRsaIサイトをもつ。 ORIGIN項に具体的な配列が示されている。 データセットは "//" 行で終了する。
農業生物資源研究所 遺伝資源第二部 前田美紀
(1997.8.21 by mmaeda)