magattacaのブログ

日付以外誤報

PDBの落とし穴にはまった話 〜PDBフォーマットの見方編〜

                 f:id:magattaca:20181106225442p:plain

 

PDBで色々と遊んできましたが、肝心のPDBファイルの中身を理解していませんでした。PDBフォーマットについて調べたので忘れないようにメモ。

 

きっかけはTwitterでのやりとり。 PDBでは構造を自動で認識しているため間違っている可能性があると教えていただきました。

 

Fushinobu先生ありがとうございました!(*1)

 

問題の構造はこちら

f:id:magattaca:20181104132551p:plain

Fig. 1 リガンド2次元構造の比較



Fig. 1 左に示した2次元構造は、RCSB PDBで確認できる、BMS社のリガンドとPD-L1の共結晶[PDB id: 5NIX] のリガンドの構造ですが、末端部位が1,4-Benzodioxineとなっています。「こんな不安定そうな構造をBMSがつくるだろうか? そもそもどうやって合成するの?ということで、PDBの元文献とBMSの特許を確認しました(Fig. 1 右)。

どちらも1,4-Benzodioxaneとなっており、どうやら先生のご指摘通りPDBの構造が間違っていそうです。

他にもPDB上の構造は、シアノ基の3重結合がなかったり、ピロリジン環のNの位置が違うなど、つっこみどころの多い構造となっています(Fig. 1 左、青枠で示した部分)。

 

これはPDBの中身についても知っておく必要がありそうです。

 

「中身って言ったってどうせ謎の文字列でしょ。マトリックスに出てくるスーパーハッカーみたいな人達が読むやつでしょー。」と思ってたのですが、意外に(?)普通のテキストファイルでした。

 

早速 PDB id : 5NIX をダウンロードし、テキストエディタで開いてみます。こんな感じ。

f:id:magattaca:20181104162158p:plain

Fig. 2 PDBファイルの中身(最初の方)


PDBファイルは1行80列の固定長からなっており、1行が1つのレコードに対応しています。左端の6列が各レコードの識別に割り当てられており、ここを見るとなんとなく何が書いてあるか内容がわかります。

固定長のため不自然に改行されていたりしますが、左端を頼りすれば読めそうです。

Fig. 2は PDBファイルの冒頭ですが、まずはタンパク質の情報や由来、文献、著者などのメタ・データが記載されています。

 

レコード名 FIELD 定義 5NIXの場合
HEADER 11 - 50 列 : classification 分子の分類 免疫系 (IMMUNE SYSTEM)
  51 - 59 列 : depDate PDBがデータを受け取った日 (Deposition date) 2017年5月27日 (27-MAR-17)
  63 - 66列 : idCode 割り当てられたPDB ID 5NIX
TITLE 9 - 10 列 : continuation 前の行からの続きかどうか 改行されているので2行目に2の記載
  11-80 列 : title 実験のタイトル PD-L1と低分子の複合体みたいな内容
COMPND 8 - 10 列 : continuation   5行目まで続くので「空白、2、3、4、5」となる
  11-80 列 : compound エントリー中の高分子(macromolecule)の説明 ①MOL_ID:エントリー内の分子のID
②MOLECULE:分子の名前
③CHAIN:含まれるChain IDのリスト
④SYNONYM:シノニムのリスト
⑤ENGINEERED:リコンビナントや化学合成したものか否か
SOURCE 8 - 10 列 : continuation  

7行目まで続くので「空白、 2、3、4、5、6、7」となる

  11 - 79 列 : srcName 高分子のソースの説明 UniProtに書いてあるような情報や 発現に大腸菌を使った(EXPRESSION_SYSTEM) などなどが書いてある

Table 1. 各レコード(Fig. 2)の説明

 

途中までですが、Fig. 2 各行は大体Table 2 のような感じです。

力尽きたので残りは こちら (→wwPDB Format version 3.3: Title Section) を参照してください。

残りは [KEYEDS : キーワード]、[EXPDTA : 構造決定の実験手法 ]、[AUTHOR : 著者]、[REVDAT : 更新履歴]、[JRNL : 文献]、[REMARK:その他詳細等の説明]・・・という感じで続いていきます。大体6文字でなんの略語か想像できますね。

 

いくつかレコードを挟んでタンパク質の3次元構造の情報が記載されています。

f:id:magattaca:20181104204106p:plain

Fig. 3 原子座標(三次元座標)の部分


Fig. 3 はネットで見つけた右の講義資料(PDF: 構造バイオインフォマティクス 基礎 立体構造データベースとその利用をもとに作成しました。 

 

無理に色分け追加したせいでわかりにくくなったとか言わないで・・・

 

立体の情報は各原子の座標という形で記載されているようです。

原子名の記載方法(Fig. 3 ③)など、化学で扱うMOLファイルにはみられないような表記の仕方で、重視する情報の違いなどが見えて面白いですね。(*2)

 

温度因子や占有率はよく分かりません。すみません。

 

タンパク質以外のリガンドはどのように表記されているか?というと、タンパク質の次に、[HETATM]というレコード名で記載されていました。

 

f:id:magattaca:20181104212040p:plain

Fig. 4 リガンドの原子座標


[HETATM] の下には [CONECT] というレコードが続きます。こちらは原子間の結合(connectivity) についての情報で、結合に関与する原子の原子通し番号(Fig. 3 ②)を並べるという形で記載されています。 

f:id:magattaca:20181104220718p:plain

Fig. 5 結合情報の記載方法

CONECT レコードは 水分子以外の HET グループについては記載が義務付けられており、以下のようなものが含まれます。( Connectivity Section )

 (i) 水分子以外の non-standard (HET) residue における分子内の結合関係 

 (ii) HET グループから他の standard group (水 含む)、あるいは他のHET groupへの分子間の結合関係

 (iii) SSBOND レコードに記載されているジスルフィド結合

 

話が前後してしまいましたが HETレコードは以下のような感じです。 

 

f:id:magattaca:20181104230148p:plain

Fig 6. HET レコード関連


PDBの低分子の表記に「~」などが含まれており、転記ミスかと思っていましたが、上付き文字を表すための特殊文字だそうです。

「~{R}」 は 「R」 の意味だろうか?この表記では PDB以外のフォーマットとの互換性が悪そう。  

水の原子数が248になっていますが、エントリー数としては水は76個で3倍しても228個です。数が合わない?なぜだ???

 

SSBONDは以下のような感じ。

f:id:magattaca:20181104233702p:plain

Fig. 7 SSBOND と LINK

 対称操作や点群は本当にわからないので間違っていたらご指摘いただければ幸いです。(*3)

 

REMARKの中にも興味深い項目がありました。

REMARK の 8-10列目の数字は、[ remarkNum : REAMRK number ]でどんな内容がかいてあることを表します( REMARK )。

例えばREMARK number 800 は結合サイトについての情報です。

・・・・こういう情報も書いてあるのか。 

f:id:magattaca:20181104235146p:plain

Fig. 8 SITE レコード


他にも2次構造情報のレコード [HELIX] や [SHEET] などの情報もあり、こういう情報があるからviewer でいろいろな形式で描画したり、結合サイトを抜き出した表示したりできるのか(・・・たぶん?)。楽屋裏を覗いている感じで面白いですね。

 

残りのレコードは

・[DBREF] :

複数のデータベースのクロスリファレンス (DataBase REFerence?)

データベースとしては 「GenBank : GB」、「Protein Data Bank : PDB」、「UNIPROT : UNP」、「Norine : NORINE」があります。

・[SRQRES]:

タンパク質のアミノ酸配列

・[SEQADV] :

PDBエントリーのアミノ酸配列(SEQRES)と他のデータベースの情報との差異

 

そして最後、チェック用の「MASTER」レコードと「END」レコードで終わります。

 

f:id:magattaca:20181105002842p:plain

Fig. 9 MASTER / END レコード


ああ、やっと見終わった。

・・・・・・

・・・・・・

・・・・・・

・・・・・・本題のPDBの低分子の構造が間違っていた問題解決していない!!

 

次回につづく!

 

 

P.S.

学生時代にX線結晶構造解析の授業に本当についていけなかったので間違いがあるかもしれません。ご指摘いただければ幸いです。

 

結晶学がわからないため飛ばしたレコード [CRTST1]も念のため・・・

 

f:id:magattaca:20181105231613p:plain

 

・・・[ORIGXn]と[SCALEn] は本当にわからなかった

 

***********************************************************************************************************

*1

研究室のHP  東大・農・酵素学研究室

インタビューも掲載されていました。微生物の糖質分解酵素に着目し、酵素の産業応用につなげる〜伏信進矢・東京大学大学院教授 | Top Researchers

 

 *2

PDBフォーマットの読み方については下記を参考に致しました。

PDBj 各書式の説明: Data Format - Help - Protein Data Bank Japan

より詳しい各項目の説明 (英語): Atomic Coordinate Entry Format Version 3.3

積ん読本: かつて勉強しようとして挫折した形跡が・・・

タンパク質計算科学 ―基礎と創薬への応用― [CD-ROM付]

タンパク質計算科学 ―基礎と創薬への応用― [CD-ROM付]

 

 

*2 MOLファイルの中身は「化学の新しいカタチ」さんの以下の記事がわかりやすかったです。

 MOLファイル・SDFとはどんな化学情報ファイルなのか?

有機合成化学者のための計算化学・ケモインフォマティクス 入門」と題された、ハイクオリティーすぎる記事満載のサイトです。

 

*3対称性について記載されたページ。難しい・・・

PDBの生物学的構造単位について — 生物学的集合体と対称性 1.0 ドキュメント