PDBの落とし穴にはまった話 〜PDBフォーマットの見方編〜
PDBで色々と遊んできましたが、肝心のPDBファイルの中身を理解していませんでした。PDBフォーマットについて調べたので忘れないようにメモ。
きっかけはTwitterでのやりとり。 PDBでは構造を自動で認識しているため間違っている可能性があると教えていただきました。
普通は、論文の方が正しくて(著者にまともな人がいたら見過ごさないと思う)、PDBでは自動システム(bond angleなどで検知)で低分子のアノテーションをするのでPDBが間違ってる可能性の方が少し高いですね。
— Shinya Fushinobu (@sugargroove) 2018年10月22日
Fushinobu先生ありがとうございました!(*1)
問題の構造はこちら
Fig. 1 左に示した2次元構造は、RCSB PDBで確認できる、BMS社のリガンドとPD-L1の共結晶[PDB id: 5NIX] のリガンドの構造ですが、末端部位が1,4-Benzodioxineとなっています。「こんな不安定そうな構造をBMSがつくるだろうか? そもそもどうやって合成するの?」ということで、PDBの元文献とBMSの特許を確認しました(Fig. 1 右)。
どちらも1,4-Benzodioxaneとなっており、どうやら先生のご指摘通りPDBの構造が間違っていそうです。
他にもPDB上の構造は、シアノ基の3重結合がなかったり、ピロリジン環のNの位置が違うなど、つっこみどころの多い構造となっています(Fig. 1 左、青枠で示した部分)。
これはPDBの中身についても知っておく必要がありそうです。
「中身って言ったってどうせ謎の文字列でしょ。マトリックスに出てくるスーパーハッカーみたいな人達が読むやつでしょー。」と思ってたのですが、意外に(?)普通のテキストファイルでした。
早速 PDB id : 5NIX をダウンロードし、テキストエディタで開いてみます。こんな感じ。
PDBファイルは1行80列の固定長からなっており、1行が1つのレコードに対応しています。左端の6列が各レコードの識別に割り当てられており、ここを見るとなんとなく何が書いてあるか内容がわかります。
固定長のため不自然に改行されていたりしますが、左端を頼りすれば読めそうです。
Fig. 2は PDBファイルの冒頭ですが、まずはタンパク質の情報や由来、文献、著者などのメタ・データが記載されています。
レコード名 | FIELD | 定義 | 5NIXの場合 |
---|---|---|---|
HEADER | 11 - 50 列 : classification | 分子の分類 | 免疫系 (IMMUNE SYSTEM) |
51 - 59 列 : depDate | PDBがデータを受け取った日 (Deposition date) | 2017年5月27日 (27-MAR-17) | |
63 - 66列 : idCode | 割り当てられたPDB ID | 5NIX | |
TITLE | 9 - 10 列 : continuation | 前の行からの続きかどうか | 改行されているので2行目に2の記載 |
11-80 列 : title | 実験のタイトル | PD-L1と低分子の複合体みたいな内容 | |
COMPND | 8 - 10 列 : continuation | 5行目まで続くので「空白、2、3、4、5」となる | |
11-80 列 : compound | エントリー中の高分子(macromolecule)の説明 | ①MOL_ID:エントリー内の分子のID ②MOLECULE:分子の名前 ③CHAIN:含まれるChain IDのリスト ④SYNONYM:シノニムのリスト ⑤ENGINEERED:リコンビナントや化学合成したものか否か |
|
SOURCE | 8 - 10 列 : continuation |
7行目まで続くので「空白、 2、3、4、5、6、7」となる |
|
11 - 79 列 : srcName | 高分子のソースの説明 | UniProtに書いてあるような情報や 発現に大腸菌を使った(EXPRESSION_SYSTEM) などなどが書いてある |
Table 1. 各レコード(Fig. 2)の説明
途中までですが、Fig. 2 各行は大体Table 2 のような感じです。
力尽きたので残りは こちら (→wwPDB Format version 3.3: Title Section) を参照してください。
残りは [KEYEDS : キーワード]、[EXPDTA : 構造決定の実験手法 ]、[AUTHOR : 著者]、[REVDAT : 更新履歴]、[JRNL : 文献]、[REMARK:その他詳細等の説明]・・・という感じで続いていきます。大体6文字でなんの略語か想像できますね。
いくつかレコードを挟んでタンパク質の3次元構造の情報が記載されています。
Fig. 3 はネットで見つけた右の講義資料(PDF: 構造バイオインフォマティクス 基礎 立体構造データベースとその利用)をもとに作成しました。
無理に色分け追加したせいでわかりにくくなったとか言わないで・・・
立体の情報は各原子の座標という形で記載されているようです。
原子名の記載方法(Fig. 3 ③)など、化学で扱うMOLファイルにはみられないような表記の仕方で、重視する情報の違いなどが見えて面白いですね。(*2)
温度因子や占有率はよく分かりません。すみません。
タンパク質以外のリガンドはどのように表記されているか?というと、タンパク質の次に、[HETATM]というレコード名で記載されていました。
[HETATM] の下には [CONECT] というレコードが続きます。こちらは原子間の結合(connectivity) についての情報で、結合に関与する原子の原子通し番号(Fig. 3 ②)を並べるという形で記載されています。
CONECT レコードは 水分子以外の HET グループについては記載が義務付けられており、以下のようなものが含まれます。( Connectivity Section )
(i) 水分子以外の non-standard (HET) residue における分子内の結合関係
(ii) HET グループから他の standard group (水 含む)、あるいは他のHET groupへの分子間の結合関係
(iii) SSBOND レコードに記載されているジスルフィド結合
話が前後してしまいましたが HETレコードは以下のような感じです。
PDBの低分子の表記に「~」などが含まれており、転記ミスかと思っていましたが、上付き文字を表すための特殊文字だそうです。
「~{R}」 は 「R」 の意味だろうか?この表記では PDB以外のフォーマットとの互換性が悪そう。
水の原子数が248になっていますが、エントリー数としては水は76個で3倍しても228個です。数が合わない?なぜだ???
SSBONDは以下のような感じ。
対称操作や点群は本当にわからないので間違っていたらご指摘いただければ幸いです。(*3)
REMARKの中にも興味深い項目がありました。
REMARK の 8-10列目の数字は、[ remarkNum : REAMRK number ]でどんな内容がかいてあることを表します( REMARK )。
例えばREMARK number 800 は結合サイトについての情報です。
・・・・こういう情報も書いてあるのか。
他にも2次構造情報のレコード [HELIX] や [SHEET] などの情報もあり、こういう情報があるからviewer でいろいろな形式で描画したり、結合サイトを抜き出した表示したりできるのか(・・・たぶん?)。楽屋裏を覗いている感じで面白いですね。
残りのレコードは
・[DBREF] :
複数のデータベースのクロスリファレンス (DataBase REFerence?)
データベースとしては 「GenBank : GB」、「Protein Data Bank : PDB」、「UNIPROT : UNP」、「Norine : NORINE」があります。
・[SRQRES]:
タンパク質のアミノ酸配列
・[SEQADV] :
PDBエントリーのアミノ酸配列(SEQRES)と他のデータベースの情報との差異
そして最後、チェック用の「MASTER」レコードと「END」レコードで終わります。
ああ、やっと見終わった。
・・・・・・
・・・・・・
・・・・・・
・・・・・・本題のPDBの低分子の構造が間違っていた問題解決していない!!
次回につづく!
P.S.
学生時代にX線結晶構造解析の授業に本当についていけなかったので間違いがあるかもしれません。ご指摘いただければ幸いです。
結晶学がわからないため飛ばしたレコード [CRTST1]も念のため・・・
・・・[ORIGXn]と[SCALEn] は本当にわからなかった
***********************************************************************************************************
*1
研究室のHP 東大・農・酵素学研究室
インタビューも掲載されていました。微生物の糖質分解酵素に着目し、酵素の産業応用につなげる〜伏信進矢・東京大学大学院教授 | Top Researchers
*2
PDBフォーマットの読み方については下記を参考に致しました。
PDBj 各書式の説明: Data Format - Help - Protein Data Bank Japan
より詳しい各項目の説明 (英語): Atomic Coordinate Entry Format Version 3.3
積ん読本: かつて勉強しようとして挫折した形跡が・・・
タンパク質計算科学 ―基礎と創薬への応用― [CD-ROM付]
- 作者: 神谷成敏,肥後順一,福西快文,中村春木
- 出版社/メーカー: 共立出版
- 発売日: 2009/08/25
- メディア: 単行本
- クリック: 36回
- この商品を含むブログ (4件) を見る
*2 MOLファイルの中身は「化学の新しいカタチ」さんの以下の記事がわかりやすかったです。
「有機合成化学者のための計算化学・ケモインフォマティクス 入門」と題された、ハイクオリティーすぎる記事満載のサイトです。
*3対称性について記載されたページ。難しい・・・
PDBの生物学的構造単位について — 生物学的集合体と対称性 1.0 ドキュメント