EMBLデータファイルの読み方
ここではEMBLのV01515を例として内容を解説する。
ID HSGLUC standard; DNA; HUM; 6455 BP.
ID行には配列のデータベース的な名称が記述される。この配列はHSGLUCという名称で、6455残基の長さを持つヒトのDNAである。
XX
何も記述のない行の先頭はXXで始まる。この行は各項目の区切りを示す。
AC V01515;
アクセッション番号はV01515である。この番号はGenBank, EMBL, DDBJを通じて固有である。
NI g31777
新しい番号はg31777である。
DT 06-DEC-1983 (Rel. 04, Created)
DT 12-SEP-1993 (Rel. 36, Last updated, Version 3)
この配列は最初1983年12月6日に報告され、1993年9月12日に最後の修正がなされた。
DE Human gene encoding preproglucagon. Glucagon is a 29-amino acid
DE pancreatic hormone which counteracts the blood glucose-lowering
DE action of insulin by stimulating hepatic glycogenolysis and
DE gluconeogenesis. Also included in the proglucagon sequence are two
DE regions (GLP-1 and GLP-2) which are homologous to glucagon itself
DE but not identical.
DE行にはこの配列についてのコメントが示されている。この配列の場合は、 "プレプログルカゴンをコードしているヒトの遺伝子である。グルカゴンは29残基のアミノ酸からなる膵臓のホルモンであり、インスリンと競合して血中グルコース濃度を調節している。プログルカゴンの配列は2つの部分(GLP-1とGLP-2)からなっており、どちらもグルカゴンであるが同じではない。" と記述されている。
KW glucagon; signal peptide.
キーワードはglucagonとsignal peptideである。
OS Homo sapiens (human)
このDNAはヒトから単離された。
OC Eukaryota; Animalia; Metazoa; Chordata; Vertebrata; Mammalia;
OC Theria; Eutheria; Primates; Haplorhini; Catarrhini; Hominidae.
ヒトは真核生物の・・・ヒトに分類される。
RN [1]
RP 1-6455
RX MEDLINE; 83271477.
RA Bell G.I., Sanchez-Pescador R., Laybourn P.J., Najarian R.C.;
RT "Exon duplication and divergence in the human preproglucagon
RT gene";
RL Nature 304:368-371(1983).
リファレンスを示している。
DR CPGISLE; HSGLUC; Release 3.0.
DR SWISS-PROT; P01275; GLUC_HUMAN.
この配列はリリース3.0のCPGISLEと同じであり、SWISS_PROTのP01275が関連情報を含んでいる。
CC Data kindly reviewed (20-SEP-1983) by G.I. Bell
このデータはG.I.Bellによって確認された。
FH Key Location/Qualifiers
FH
FT source 1..6455
FT /organism="Homo sapiens"
この配列が単離された生物はヒトである。
FT CDS join(168..259,1832..1993,3661..3798,5168..5312)
FT /db_xref="PID:g31778"
FT /db_xref="SWISS-PROT:P01275"
FT /translation="MKSIYFVAGLFVMLVQGSWQRSLQDTEEKSRSFSASQADPLSDPD
FT QMNEDKRHSQGTFTSDYSKYLDSRRAQDFVQWLMNTKRNRNNIAKRHDEFERHAEGTFT
FT SDVSSYLEGQAAKEFIAWLVKGRGRRDFPEEVAIVEELGRRHADGSFSDEMNTILDNLA
FT ARDFINWLIQTKITDR"
168〜259、1832〜1993、3661〜3798、5168〜5312残基がコーディング領域であり、これらを結合した配列の翻訳したものが示されている。
FT sig_peptide 168..227
168〜227残基がシグナルペプチドの部分である。
FT intron 260..1831
FT /note="intron I"
260〜1831残基がイントロンIである。
FT CDS 1896..1982
FT /product="glucagon"
FT /db_xref="PID:e28349"
FT /translation="HSQGTFTSDYSKYLDSRRAQDFVQWLMNT"
1896〜1982残基がコーディング領域でありプロダクトはglucagonである。
FT intron 1994..3660
FT /note="intron II"
1994〜3660残基がイントロンIIである。
FT CDS 3680..3790
FT /product="GLP-1"
FT /db_xref="PID:e28350"
FT /translation="HDEFERHAEGTFTSDVSSYLEGQAAKEFIAWLVKGRG"
3680〜3790残基がGLP-Iをコードしている。
FT intron 3799..5167
FT /note="intron III"
3799〜5167残基がイントロンIIIである。
FT CDS 5211..5315
FT /product="GLP-2"
FT /db_xref="PID:e28351"
FT /translation="HADGSFSDEMNTILDNLAARDFINWLIQTKITDR"
5211〜5315残基がGLP-2をコードしている。
SQ Sequence 6455 BP; 2167 A; 1107 C; 1121 G; 2060 T; 0 other;
この配列は6455の残基からなり、2167個のアデニン、1107個のシトシン、1121個のグアニン、2060個のチミンからできている。
gaattcatgc tgaaaatata atcagaataa aagtgataac actagctttt tccttctact 60
tatgatattt atctagtcaa atctaattaa tttagcctga catgtttaaa aatccttgcc 120
tgcccccctc accctacccc cattctgtgt tctgacagac agcagaaatg aaaagcattt 180
actttgtggc tggattattt gtaatgctgg tacaaggcag ctggcaacgt tcccttcaag 240
acacagagga gaaatccagg tattaaatcc gtagtctcga actaacatat caatatggtt 300
..........
tagccaaaaa ttacaaatgg aataaagttt tatcaaaata ttgctaaaat atcagcttta 6180
aaatatgaaa gtgctagatt ctgttatttt cttcttattt tggatgaagt accccaacct 6240
gtttacattt agcgataaaa ttatttttct atgatataat ttgtaaatgt aaattattcc 6300
gatctgacat atctgcatta taataatagg agaatagaag aactggtagc cacagtggtg 6360
aaattggaaa gagaactttc ttcctgaaac ctttgtctta aaaatactca gctttcaatg 6420
tatcaaagat acaattaaat aaaattttca agctt 6455
具体的な配列は上記のとおりである。
//
各々のデータは "//" で終了する。
農業生物資源研究所 遺伝資源第二部 前田美紀
(1997.8.21 by mmaeda)