PDBについて


PDBとはProtein Data Bankの略でアメリカのBrookheaven National Laboratoryで構築されている生体高分子物質の立体構造座標に関するデータベースである。蛋白質に関するデータが中心であるが、核酸などのそれ以外の生体分子に関する情報も含んでいる。蛋白質の立体構造は最初、X線、中性子線などの回折によって求められてきたデータがほとんどであったが、最近ではNMRによって求められたデータも増加している。

PDBデータの中には立体構造座標以外に様々な情報が含まれている。そしてそれらの情報はそれぞれの項目によって行単位に記述されている。項目は行の先頭7文字までに示される。また該当する情報がない場合、それぞれの行は省略される場合もある。項目と対応する行の内容を表1に示す。

表1 PDB ファイルの項目名と内容

では、実際にはどんなデータが含まれているのだろうか?
例として glucagon (1GCN) のファイルを見てみることにする。glucagon は消化器系のペプチドホルモンであり、比較的初期に立体構造解析の行われた蛋白質の1つである。


図1 PDB ファイルの例 (1GCN)

glucagon は 29 残基のアミノ酸からなるペプチドであるため、約 300 行 (32kByte) のデータとなっているが、多くの蛋白質はこれよりも大きいため膨大なデータ量となっている。

PDB ファイルの行は FORTRAN と同様、桁によって記述方式が決まっている。すべてのファイルは共通して 1 桁目から 9 桁目までに項目名、11 桁目から 72 桁目までにそれについての記述がある。項目の内容が 2 行以上になる場合は、10 行目に番号が記入される。73 桁目から 76 桁目までは登録番号であるが、登録番号が 5 桁になる場合は 77 桁目にも記されている。77 桁目から 80 桁目までは行番号である。それではそれぞれの行を見てみよう。

HEADER で始まるこの行はデータの最初の部分に必ず記述される。データのカテゴリー、登録された日付と登録番号がデータとして示される。

COMPND で始まる行は HEADER の次の行に必ず記述される。物質名が記されるが、測定条件などその他の記述がある場合もある。

SOURCE 行は COMPND の次の行に必ず記述されている。基原生物が記されている。

AUTHOR 行は 構造決定をした人の名前が記されている。

REVDAT 行は 構造が登録された日付が記されている。この例では 1977 年 11 月 28 日に最初の登録が受け付けられ、1979 年 8 月 29 日に CRYST1行、その後 1979 年 10 月 22 日に ATOM 行、1980 年 12 月 31 日に REMARK 行、1983 年 9 月 30 日に REVDAT 行が付け加えられ、その時に加えられた部分はそれぞれ 1GCN, 1GCNA, 1GCNB, 1GCNC, 1GCND であることが示されている。この部分は 1GCND の部分であるので、登録番号は 1GCND、行番号は 1GCND のみでの通し番号となっている。

JRNL 行は この構造が発表された論文が記述されている。書誌情報の中の項目が 2 行以上になる場合には 16 桁目に数字が入っている。この例では、

K.SASAKI et al., Nature Vol.257, p751 (1975)
を参照すればよいということがわかる。

次に REMARK 行であるが、これは特記事項の行である。10 行目の番号は、いくつめの情報かを表わしている。

REMARK 1 行には参考文献が示されていることが多い。

REMARK 2 行には X 線構造解析における分解能を示していることが多い。通常は 3 Å以下である。

この例では REFINEMENT の方法を示している。 R 値、RMS などのパラメータが記入されていることもある。通常 R 値は 20% 以下である。

この例ではここで実験条件を示している。

SEQRES 行にはアミノ酸の配列が示されている。16 桁目から 17 桁目の数字は残基数を表している。サブユニット構造をとっている場合は 12 桁目にサブユニットの記号が入り、残基数はサブユニットごとに示されている。

FTNOTE 行には注意事項を記述している。

HELIX 行はα−ヘリックスの構造をとっている残基を示している。この他に SHEET 行、TURN 行、SSBOND 行があり、これらも同様にそれぞれβ−シート、β−ターン構造をとっている残基、SSBOND を形成している cys 残基をを表わしている。

CRYST1 行は結晶のパラメータである。この例においては結晶格子のパラメータが a = 47.100(Å), b = 47.100(Å), c = 47.100(Å), α= 90.00(degree), β=90.00(degree), γ=90.00(degree) であり、結晶格子がP213型であることを示している。

ORIGX 行、SCALE 行では結晶学的な変換行列が記述されている。左側は 3 × 3 の行列、右側はそれの定数項行列である。ORIGX 行は最初の構造の変換式、SCALE 行は単位格子に変換するときの行列式である。

ATOM 行は結晶構造のパラメータを記述している。残基名の部分はアミノ酸の3文字省略記号で示されている。元素名は元素記号で表わされるが、CA, CB, CG はそれぞれα−カーボン、β−カーボン、γ−カーボンのことである。またND1, CD1 は CE1, NE1 はそれぞれ His の D リングに含まれる窒素と炭素、E リングに含まれる窒素と炭素である。占有率はその原子が全体のうちのどのくらいの割合を占めているかを表わす値であり、2つ以上の座標がある場合には合計して 1 となる。温度因子は熱振動に対応する値であり、これが大きくなるとその原子が分子の中で動いていることを示している。

TER 行は C 末端の残基を示している。この場合は Thr 残基である。

MASTER 行と END 行はファイルの最後に必ず現われる。


農業生物資源研究所 遺伝資源第二部 前田美紀
(last updated on 1997.4.2 by mmaeda)
Feb 2, 2001