PDBの落とし穴にはまった話　〜PDBフォーマットの見方編〜

f:id:magattaca:20181106225442p:plain

PDBで色々と遊んできましたが、肝心のPDBファイルの中身を理解していませんでした。PDBフォーマットについて調べたので忘れないようにメモ。

きっかけはTwitterでのやりとり。 PDBでは構造を自動で認識しているため間違っている可能性があると教えていただきました。

普通は、論文の方が正しくて（著者にまともな人がいたら見過ごさないと思う）、PDBでは自動システム（bond angleなどで検知）で低分子のアノテーションをするのでPDBが間違ってる可能性の方が少し高いですね。
— Shinya Fushinobu (@sugargroove) 2018年10月22日

Fushinobu先生ありがとうございました！(*1)

問題の構造はこちら

f:id:magattaca:20181104132551p:plain — Fig. 1 リガンド２次元構造の比較

Fig. 1 左に示した２次元構造は、RCSB PDBで確認できる、BMS社のリガンドとPD-L1の共結晶[PDB id: 5NIX] のリガンドの構造ですが、末端部位が1,4-Benzodioxineとなっています。「こんな不安定そうな構造をBMSがつくるだろうか？そもそもどうやって合成するの？」ということで、PDBの元文献とBMSの特許を確認しました（Fig. 1 右）。

どちらも1,4-Benzodioxaneとなっており、どうやら先生のご指摘通りPDBの構造が間違っていそうです。

他にもPDB上の構造は、シアノ基の３重結合がなかったり、ピロリジン環のNの位置が違うなど、つっこみどころの多い構造となっています（Fig. 1 左、青枠で示した部分）。

これはPDBの中身についても知っておく必要がありそうです。

「中身って言ったってどうせ謎の文字列でしょ。マトリックスに出てくるスーパーハッカーみたいな人達が読むやつでしょー。」と思ってたのですが、意外に（?）普通のテキストファイルでした。

早速 PDB id : 5NIX をダウンロードし、テキストエディタで開いてみます。こんな感じ。

f:id:magattaca:20181104162158p:plain — Fig. 2 PDBファイルの中身（最初の方）

PDBファイルは１行80列の固定長からなっており、１行が１つのレコードに対応しています。左端の6列が各レコードの識別に割り当てられており、ここを見るとなんとなく何が書いてあるか内容がわかります。

固定長のため不自然に改行されていたりしますが、左端を頼りすれば読めそうです。

Fig. 2は PDBファイルの冒頭ですが、まずはタンパク質の情報や由来、文献、著者などのメタ・データが記載されています。

レコード名	FIELD	定義	5NIXの場合
HEADER	11 - 50 列 : classification	分子の分類	免疫系 (IMMUNE SYSTEM)
	51 - 59 列 : depDate	PDBがデータを受け取った日 (Deposition date)	2017年5月27日 (27-MAR-17)
	63 - 66列 : idCode	割り当てられたPDB ID	5NIX
TITLE	9 - 10 列 : continuation	前の行からの続きかどうか	改行されているので2行目に2の記載
	11-80 列 : title	実験のタイトル	PD-L1と低分子の複合体みたいな内容
COMPND	8 - 10 列 : continuation		5行目まで続くので「空白、2、3、4、5」となる
	11-80 列 : compound	エントリー中の高分子(macromolecule)の説明	①MOL_ID:エントリー内の分子のID ②MOLECULE:分子の名前 ③CHAIN:含まれるChain IDのリスト ④SYNONYM:シノニムのリスト ⑤ENGINEERED:リコンビナントや化学合成したものか否か
SOURCE	8 - 10 列 : continuation		7行目まで続くので「空白、 2、3、4、5、6、7」となる
	11 - 79 列 : srcName	高分子のソースの説明	UniProtに書いてあるような情報や発現に大腸菌を使った(EXPRESSION_SYSTEM) などなどが書いてある