PDBの落とし穴にはまった話 〜非結晶学者が注意すべきこと編〜
PDBの中身もなんとなくわかったところで、当初の問題、PDBに登録された低分子の構造がなぜ間違っていたのかということを考えていきたいと思います。
その前に今回の内容の目次・・・
1. PDBフォーマットの問題点
では問題の構造を再掲。左がPDBで、右が特許(および元文献)中の構造です。
・・・ここまで違うともはや清々しい。
「PDBの低分子構造は自動でアノテーションされているため、間違いが生じる可能性がある」とのことでした。そこで、再度PDBファイルのリガンドの構造に関する部分を見てみます。
Fig. 2 に記載したように、PDBにはリガンドの構造にとって重要な下記の情報が欠けています。
①水素原子の情報がない(→ 水素の数や位置で不飽和度や立体配置を決められない)
②原子間に結合があることはわかるが、結合次数や立体配置が記載されていない。
PDBファイル本体にはこれらの情報が含まれておらず、原子の3次元座標のみから、結合角や位置関係をもとに、自動で結合次数や立体配置を割り当てているそうです。したがって、データの分解能が悪いと自動で生成した構造に誤りが生じ、間違ったまま登録されていることがあるようです。
Fig .1 で指摘した誤りのうち①、③、④については上記で説明がつきますが、構造式の誤り(②)もあるところを見ると、そもそも著者らのチェックにも問題がある気がします・・・。
PDBのフォーマットは古いため、記載方法や情報に課題があることは問題となっているようで、現在新しいフォーマット PDBx/mmCIF への移行が進められているそうです。
上記の説明は、ページ末尾の資料・文献を参考に作成しました(*1)が、私の理解不足により誤りがあるかもしれません。ご指摘いただければ幸いです。
2. PDBを利用する上で非結晶学者が注意すべきこと
ところで、私はタンパク質の結晶は言うまでもなく、低分子有機化合物の結晶化すらできなかったダメ学生だったのですが、今回参考とした資料の中には結晶学を専門としない私のような門外漢にとって、非常に勉強になる内容が多く記載されていました。
再度似たような間違いに陥らないよう、内容を紹介したいと思います。
(1) 共結晶構造中の構造の誤りについて
まずは文献③ Reynolds, C.H., ACS Med. Chem. Lett. 2014(5)727 より。
こちらの文献ではタンパク質-リガンド共結晶構造におけるリガンド構造の問題について下記5点が指摘されています。
タンパク質-リガンド共結晶構造におけるリガンド構造の問題
1. 構造式の誤り
・あるべき原子がない(missing atoms)
・結合次数が間違っている(incorrect bond orders)
・結合関係の間違い(connectivity issues)
2. 分子構造の問題
幾何的特徴が化学的に理想な値の範囲外にある場合(problems with geometric constraints and ideal values)
・結合長(bond distances)
・結合角(angles)
・二面角(dihedral angles)
3. タンパク質-リガンドの立体的衝突
タンパク質とリガンドがぶつかってしまっている(bad steric clashes)
4.コンフォメーションの間違い
化学的にみておかしな配座となっている(internal strain)。
・アミド結合の配座がシスとなっている(cis-amides)
・アミド結合の平面性が崩れ、ねじれている(twisted amides)
・環構造のねじれ( distorted rings (e.g. boat型やtwist型の配座))
・芳香族の平面性が崩れている(nonplanar aromatic groups)
・非平面のはずの構造が平面となっている(e.g., sufones and sulfoxides)
5. 結合モードの間違い
・結合サイト内でのリガンドの向きがおかしい(incorrect orientation)
→実験データから見てあきらかにとるはずのポーズをとっていない。
・ 水素付加(protonation states)、電荷(charges)の問題
上記の誤りが生じるテクニカルな要因
これらの問題が生じる要因として、3点のテクニカルな問題があげられています。
1.分解能不足
・超高分解能(< 1.0Å)でない限り電子密度分布のみからの分子構造の予測は困難である。
・したがって、X線結晶構造解析から導かれた構造は電子密度分布に合うようにつくられたモデル(fitted model)である。
2.力場の問題
・構造予測(モデルのフィット)に、力場が用いられるが、タンパク質にあわせてつくられたものであり低分子に適していない
・よく使われる力場(e.g. Engh-Huber)の問題点としては下記が挙げられている。
・united-atomモデルである(水素原子を炭素原子に含めて扱う
・静電力(electrostatics)が軽視(無視?)されている
・低分子医薬品向けにパラメーターが最適化されていない
3.リガンド精度の重みの低さ
・リガンドはタンパク質と比べて非常に小さいため、リガンドのフィッティングの精度は、結晶構造全体のフィッティング精度に占める割合が非常に小さい。
・したがってリガンド単体でみれば大きな間違いであっても、全体での精度の指標(一般的にはRfree)に与える影響が小さく、誤りが見過ごされてしまう。
(2) X線結晶解析結果を活用するための注意点
次に、文献② 東海大学 平山先生によるPerspectiveから。
こちらはX線結晶解析を専門としない研究者・技術者がX線結晶解析で得られた分子構造を参照する上で注意すべき点について詳しく説明されています。
低分子X線解析結果の注意点
1. X線解析単独では原子種(C、N、O)の決定が困難
解析の基本は・・・
・X線解析で求められるのは結晶内の電子密度の分布
・原子の位置 ・・・「電子密度の局所的極大点 = 原子核の場所」
・原子の種類 ・・・「原子の位置の電子密度の高さから決定」
電子数の差が小さい原子同士(CとNなど)では、電子状態によっては原子種の判別が困難で帰属を誤る可能性がある。
2. H原子の位置決定が困難
X線解析で得られるH原子の位置は実際の原子核の位置と有意に異なる。
理由は、
・H原子の電子密度は結合相手の原子に引き付けられている場合がほとんど
・電子密度の局所的極大点で原子核の位置を代表する。
・・・ H原子の位置が実際よりも、結合相手寄りの位置として解釈される
3. 温度因子(B factor)について
・結晶の単位胞内での原子の振動を考慮するために各原子に与えられるパラメータ
・・・温度因子が大きいほど結晶内での動きが大きい原子
・球状に近似した等方性温度因子(Isotropic B factor)と回転楕円体近似した異方性温度因子(Anisotropic B factor)がある
・・・低分子では主に後者が用いられ、運動の方向性がある程度分かる
*低分子X線解析の図でよく見るORTEP図(Oak Ridge Thermal Elliposid Plot)は異方性温度因子を考慮した表示方法だそうです。
4. 占有率
・全ての単位胞が等価とは限らない
例)水和物と無水物、複数の安定立体配座、糖のアノマーといった複数の構造の混在
・占有率は混在しているもののうち、ある構造を1単位胞内の存在量で表した値
・占有率と温度因子には相関がある
・・・占有率1.0でも温度因子が他の原子より異様に大きい原子は疑った方が良い
*占有率が1.0より小さい場合でも使用しているソフトウェアによっては一つの構造しか表示されないことがあるそうです。
5. R因子について
R = Σ(|Fo| - |Fc|) / Σ|Fo| ・・・(F: X線の振幅、Fo: 観測値、Fc: 計算値)
・「モデル構造がどれだけ観測データを説明するできるか?」の程度を表す指標であり良質な構造を選択する上で参考となる
・判断の目安
・・R 因子 5%以下・・・ほとんど問題なし
・・R 因子 7-10% ・・・原子の並びはよくても、原子種の判定が微妙なことがある
・重原子を含む構造や、自由度の高い分子の場合はR因子が高くなる傾向があることに注意
タンパク質X線解析結果の注意点
1. タンパク質結晶解析の3つの大きな特徴
①「結晶中にたくさんの水分子」かつ、「大部分は明確なX線回折に寄与しない」
② バルクの水に接する分子表面を中心に分子の運動性が高い
③ X線回折の条件が低分子結晶(緊密にパッキング)と比較して格段に悪い
2. タンパク質結晶解析の質を計る2つの指標
①分解能 (resolution)
・識別可能な最小の2点間の距離
↔︎ 観測できたデータの上限で、上限のデータの質を決定するものではない
→ 分解能の数字に相当する構造が求められていないことがありうる
・原子レベルの解析を目指す場合の目安
・・・分解能 < 2Å (低分子の分解能は通常1.0Å程度)
②R因子
・Rfree が使われる
・・・全てのデータを含めて計算されるRよりも信頼性が高い指標
・原子レベルの解析を目指す場合の目安
・・・Rfree < 0.20
3. 化学構造の曖昧さ
①タンパク質結晶では観測データだけでは、非水素原子の座標を決定するのに不十分
・・・構造についての予備知識なしに、電子密度のみから解釈することはできない
②各原子座標の原子パラメータの標準偏差を見積もることができない
・・・原子レベルでの分子構造や分子間相互作用について定量的な議論をするには精度が低い
4. 問題点
タンパク質側の問題
①原子種の帰属が不明瞭
・ヘテロ原子の帰属が困難
・・・AsnやGln側鎖の O / N原子の区別、His側鎖のN原子の位置の確定ができない
・水素原子の位置も推定できない
②温度因子と占有率
・アミノ酸残基・・・占有率 < 1.0 かつ 温度因子 > 30 Å2 の場合、位置が疑わしい
リガンド側の問題
①化学構造
・PDBデータの書誌的データの誤り
・電子密度のみから化学構造(結合の不飽和度、水素結合の有無)の定量的評価は困難
②解離状態
・タンパク質X線解析から直接的証拠を出せない
③温度因子と占有率
・リガンド・・・占有率 < 0.5 or 温度因子 > 50 Å2 の場合、結合様式の信頼度低い
・原子レベルで比較対照する場合は、 占有率 1.0 かつ 温度因子 < 30 Å2 が好ましい
平山先生のPerspectiveの紹介は以上です。2006年の文献であり、現在では精度等状況が変わっているかもしれませんが、個人的には知らなかったことばかりで大変勉強になりました。PDBのビューワーで綺麗な図をみているだけでは絶対にわからなかったことばかりだと思います。
3. まとめ
以上、PDBフォーマットの見方から、PDB利用の際の注意点まで見てきました。
「N/Oの区別ができない」や「水素結合の有無が不明瞭」など、ビューワーで眺めただけで「結合がありそうだから大事な部分構造だ」とか「活性に必須な官能基だ」と結論づけてしまうのは要注意ということですね。複数のデータを組み合わせて構造を見る必要がありそうです。
最後に文献⑤から、X線結晶構造を創薬にもちいる上で、 「知らず知らず前提としてしまっているけど正しいとは限らないよ」という3つの指摘を引用します。
(1) The protein structure is correct.
(2) The structure of the ligand and its interactions with the protein are correct
(3) The protein-ligand structure is relevant for drug design.
Davis, A.M.; St-Gallay, S.A.; Kleywegt, G.J. Drug Discov. Today 2009, 13, 81
・・・それは前提とさせて欲しかった!!
*************************************************************************************************************
*1) 参考文献
文献① 平成27年度日本結晶学会年会 大阪府立大学 PDBjランチョンセミナー資料(PDF)
文献②
構造活性相関部会・ニュースレター SAR News No.11 (Oct. 2006)
「結晶解析の結果を上手に活用するために」平山令明 教授
(日本薬学会構造活性相関部会 HPより閲覧可能)
文献③
Protein-Ligand Cocrystal Structures: We can Do Better ACS Med.Chem.Lett.,2014(5)727
(無料で読める)
文献④ (文献③で引用されている。なぜかネットにPDFが落ちている・・・)
Application and Limitations of X-ray Crystallographical Data in Structure-Based Ligand and Drug Design
Angew. Chem. Int. Ed. 2003(42)2718
文献⑤ (「Limitation X-ray」でググったら出てきた。これもなぜかPDFが・・・)
Limitations and lessons in the use of the X-ray structural information in drug design
Drug Discovery Today 2008(13)81