GenbankとDDBJデータファイルの読み方
GenbankとDDBJは同じファイルフォーマットを採用しているので、ここでは例としてGenbankのJ04040を例にしてデータを解説する。
LOCUS HUMGLUC 1062 bp mRNA PRI 08-NOV-1994
LOCUS行はデータの最初に必ず表示される。この場合はデータの名称が "HUMGLUC" で、1062bpの長さのmRNAで、1994年11月8日に登録されたデータである。
DEFINITION Human glucagon mRNA, complete cds.
DEFINITION項には配列の生物学的な名称が記述されている。この配列はヒトグルカゴンのmRNAである。
ACCESSION J04040
ACCESSION項にはアクセッション番号が示されている。この番号は遺伝子配列データベースに固有の番号であり、データを探すときに有用である。ここでは "J04040" である。
NID g183269
NID項は新しいID番号である。ここでは "g183269" である。
KEYWORDS glicentin; glucagon.
KEYWORDS項にはこの配列に対するキーワードを示している。ここでは "glicentin" と "glucagon" である。
SOURCE Human (neonate) brainstem, cDNA to mRNA, clones BS[3,A,B].
ORGANISM Homo sapiens
Eukaryotae; mitochondrial eukaryotes; Metazoa; Chordata;
Vertebrata; Eutheria; Primates; Catarrhini; Hominidae; Homo.
SOURCE項にはこの遺伝子配列をとった原料の生物が示される。この場合はヒトの脳幹から単離したクローンであり、ヒトは真核生物の・・・ヒトである。
REFERENCE 1 (bases 1 to 1062)
AUTHORS Drucker,D.J. and Asa,S.
TITLE Glucagon gene expression in vertebrate brain
JOURNAL J. Biol. Chem. 263 (27), 13475-13478 (1988)
MEDLINE 88330860
REFERENCE項にはこの配列を単離したことが報告された論文が示されている。またMEDLINEの行はこの論文がMEDLINEで引用できることを示しており、その場合の番号はここでは88330860である。
FEATURES Location/Qualifiers
FEATRURES項の中に具体的な実験的な情報が入っている。
source 1..1062
/organism="Homo sapiens"
/map="2q36-q37"
原料はヒトであり2q36-37にマッピングされている。
mRNA <1..1062
/note="GCG mRNA"
この配列はmRNAの1〜1062残基めを含む。 "<1" は1残基めよりも上流に配列が続いていることを示す。
sig_peptide 38..97
/gene="GCG"
/note="glucagon signal peptide"
/codon_start=1
38〜97残基めがシグナルペプチドに該当する。
CDS 38..580
/gene="GCG"
/note="preproglucagon"
/codon_start=1
/db_xref="GDB:G00-119-265"
/db_xref="PID:g183270"
/translation="MKSIYFVAGLFVMLVQGSWQRSLQDTEEKSRSFSASQADPLSDP
DQMNEDKRHSQGTFTSDYSKYLDSRRAQDFVQWLMNTKRNRNNIAKRHDEFERHAEGT
FTSDVSSYLEGQAAKEFIAWLVKGRGRRDFPEEVAIVEELGRRHADGSFSDEMNTILD
NLAARDFINWLIQTKITDRK"
コーディング領域は38〜580残基めであり、その配列は上に示す通りである。コドンの読み枠は1残基めから始まり、PIRのIDのg183270に該当する。
mat_peptide 98..304
/gene="GCG"
/note="glicentin"
/codon_start=1
このmRNAの98〜304残基がペプチドとなり、glicentinができる。
mat_peptide 194..280
/gene="GCG"
/note="glucagon"
/codon_start=1
mat_peptide 287..304
/gene="GCG"
/note="intervening peptide I"
/codon_start=1
mat_peptide 311..421
/gene="GCG"
/note="glucagon-like peptide I"
/codon_start=1
mat_peptide 428..466
/gene="GCG"
/note="intervening peptide II"
/codon_start=1
mat_peptide 473..571
/gene="GCG"
/note="glucagon-like peptide II"
/codon_start=1
同様に194〜280残基がglucagonとなり、287〜304残基、311〜421残基がintervening peptide Iとなる。428〜466残基がintervening peptide II、473〜571残基がglucagon-like peptide IIとなる。
BASE COUNT 340 a 200 c 215 g 307 t
この配列は340個のアデニン、200個のシトシン、215個のグアニン、307個のチミンを含んでいる。
ORIGIN 81 bp upstream of RsaI site; chromosome 2q36-q37.
染色体2q36-37にマッピングされており、81残基上流にRsaIサイトをもつ。
1 gctctgttct acagcacact accagaagac agcagaaatg aaaagcattt actttgtggc
61 tgggttattt gtaatgctgg tacaaggcag ctggcaacgt tcccttcaag acacagagga
121 gaaatccaga tcattctcag cttcccaggc agacccactc agtgatcctg atcagatgaa
181 cgaggacaag cgccattcac agggcacatt caccagtgac tacagcaagt atctggactc
241 caggcgtgcc caagattttg tgcagtggtt gatgaatacc aagaggaaca ggaataacat
301 tgccaaacgt cacgatgaat ttgagagaca tgctgaaggg acctttacca gtgatgtaag
361 ttcttatttg gaaggccaag ctgccaagga attcattgct tggctggtga aaggccgagg
421 aaggcgagat ttcccagaag aggtcgccat tgttgaagaa cttggccgca gacatgctga
481 tggttctttc tctgatgaga tgaacaccat tcttgataat cttgccgcca gggactttat
541 aaactggttg attcagacca aaatcactga caggaaataa ctatatcact attcaagatc
601 atcttcacaa catcacctgc tagccacgtg ggatgtttga aatgttaagt cctgtaaatt
661 taagaggtgt attctgaggc cacattgctt tgcatgccaa taaataaatt ttcttttagt
721 gttgtgtagc caaaaattac aaatggaata aagttttatc aaaatattgc taaaatatca
781 gctttaaaat atgaaagtgc tagattctgt tattttcttc ttattttgga tgaagtaccc
841 caacctgttt acatttagcg ataaaattat ttttctatga tataatttgt aaatgtaaat
901 tattccgatc tgacatatct gcattataat aataggagaa tagaagaact ggtagccaca
961 gtggtgaaat tggaaagaga actttcttcc tgaaaccttt gtcttaaaaa tactcagctt
1021 tcaatgtatc aaagatacaa ttaaataaaa ttttcaagct tc
ORIGIN項に具体的な配列が示されている。
//
データセットは "//" 行で終了する。
農業生物資源研究所 遺伝資源第二部 前田美紀
(1997.8.21 by mmaeda)