magattacaのブログ

日付以外誤報

PDB viewer でバリデーション

PDBフォーマットの見方や注意点などについて調べてきました。折角ですので前記事を踏まえて再度、発端となった構造 [PDB id : 5NIX]の質について見てみましょう。

 

今まであまりにも知識がないため見て見ぬ振りをしていたのですが、X線結晶構造の実験データとバリデーションの情報についてもRCSB PDBページで提供されていました。

 

PDBのビューワーにもいろいろな機能がありそうなので遊んで見たいと思います。

 

 

1. 指標の確認

先ずは結晶の質の指標となる分解能とR因子の確認から・・・

f:id:magattaca:20181111090235p:plain

Fig. 1 PDB id : 5NIX の分解能とRfree

 

前回のおさらいですが、原子レベルでの議論をするための結晶構造解析の質の目安として

 ・分解能 < 2Å

 ・Rfree < 0.20

が、挙げられていました。

Fig. 1 より、PDB :id 5NIXではいずれも目安より大きな値となっており、原子レベルの議論には向かない結晶構造かもしれません。

 

R因子の値のレンジですが、ランダムな構造を生成させて計算すると約0.6となるため、取りうる値の範囲 [ 0 ~ 約0.6 ]  くらいの指標だそうです。( PDB-101:R-value and R-free )

 

数値のみを見ても、それがどの程度の質なのかはイメージできない・・・・

と思っていたら、wwPDB Validation と題した素敵なグラフもありました。

f:id:magattaca:20181111093520p:plain

Fig. 2 PDBデータベースと比較した構造の質(ランク)


PDBの他のデータと比較した際に、該当のエントリーの構造の質がどの程度のものなのか、スライドバー形式で表示されています。

黒色がPDBの全エントリー(2017/12/27時点)と比較した場合、白抜きが類似の分解能の構造群と比較した場合にどのようなランク(%)に位置するかを示します。

Rfree は中央よりも左に寄っているため、他のデータと比較した場合、抜群に質の良い構造とは言えなさそうです。

 

Fig. 4 の Rfree の値が 0.264 でFig. 3の値 0.251と異なりますが、これはFig.3 が構造投稿者によって求められた値であるのに対し、Fig 4. はDCCというプログラムを用いて再計算した値が用いられているためです。wwPDB: X-ray validation report user guide )

 

2. 3D viewer で全体の質をチェック

もっと格好良く!ということで3Dでも見てみたいと思います。

PDB の3D viewer で描画方法を変更してみました。

f:id:magattaca:20181111151952p:plain

Fig. 3 描画方法の比較(左: Rainbow、右: By Density Fit)

Fig. 3 左はこれまで用いてきた[Rainbow] 形式のカラーで、Fig. 3 右は[By Density FIt] としたものです。

こちらはモデルと実験データ(電子密度)がうまく一致しているか、その度合いをBetter(青)- Poor (赤) のグラデーションで色付けしています。

色付けの基準は以下のような指標に基づいているそうです(*1)。

 

f:id:magattaca:20181111135209p:plain

Fig. 4 Density Fit 色付けの指標

RSRはモデルの1残基ごとに実空間のデータとの重なり度を評価する指標で、RSRZは、このRSRを分解能とアミノ酸残基のタイプに応じて正規化したものだそうです(*2)。

Fig. 3 をみると、リガンドは真っ白なので「まあまあの精度」といったところでしょうか?タンパク質(PD-L1)側は概ね青色で良い適合を示していますが、ところどころ白くなっています。周辺のループ構造のようにみえますので、動きがある部分なのかもしれません。

 

動きといえば・・・ということで、次の描画方法、温度因子(B-Factor) を見てみましょう。

f:id:magattaca:20181111142735p:plain

Fig. 5 Density Fit (左) と B-factor (右)

B-factorは構造の中でもっとも高いB-factor値を持つ部位を赤、最も低い部位をタンとなるように色付けされています。

Density Fit(左)で白色となっている部分と、B-factor (右) で茶色を帯びている部分のいくつかは重なりがあるように見えます(Fig. 5 赤丸)。タンパク質の動きがある(柔らかい)部位でモデルと電子密度の差が生じているというのは、あながち間違いではないかもしれません。

雑な考察に無理やり辻褄を合わせていくスタイル・・・すみません。

 

数値的にはどうなっているでしょうか?

f:id:magattaca:20181111150601p:plain

Fig. 6 占有率と温度因子(B-factor)の値

おそらくFig. 6 の Mean Isotropic B という値が等方性温度因子の平均値だと思いますが、43.81 となっています。

前回ご紹介した目安では 

 ・占有率 < 1.0 かつ B-factor > 30 Å2  

の場合、アミノ酸残基の位置が疑わしいということでした。

占有率 1.0 の場合B-factorが30を超えていても許容、ということなのでしょうか???

 

では、最後の描画方法 [By Geometry Quality] を見てみましょう。

f:id:magattaca:20181111154712p:plain

Fig. 7 Geometry Quality

 

こちらの描画方法では、構造に含まれる幾何学的な問題点の数に従って色付けされています。(0 : 青、1 : 黄、2 : オレンジ、3 以上 : 赤)

また、オプションで「Clashes」にチェックを入れると、ぶつかっている原子間にピンク色の円盤が表示されるようになります。円盤の大きさがvan der Waals半径の重なりの程度を表します。

 

Fig. 7をみるとリガンドは黄、オレンジ色の原子が多く、さらに周囲に"Clash"が複数みられます。

リガンド2次元構造の間違いから出発し、[PDB id : 5NIX] について調べてきましたが、どうやらリガンドの3次元構造のモデリングに課題がありそうです。

もう少し詳しく見てみたいと思います。

 

3. リガンドの構造を再調査 

まずは2次元構造の問題点を再確認。

f:id:magattaca:20181106003240p:plain

Fig. 8 2次元構造レベルの問題点

 

リガンドに関する指標もついでに確認。

wwPDB validation の[Full Report] の中に [Ligand Geometry] という項目がありました。

こちらは低分子の結晶構造データベースであるCambridge Structural Database (CSD)から導いた「適した幾何構造(preferred molecular geometries)」と、リガンドのモデル構造との比較結果が記載されているそうです。

f:id:magattaca:20181111163510p:plain

Fig. 9 Validation Report より Ligand Geometry

Bond lengths、Bond anglesともにCounts の3つの数値のうち一番左、analyzed の数が他の2つよりも少なくなっていますが、CSDの情報の中に比較相手となるフラグメント構造が存在し無い場合に少なくなることがあるそうです。

 

リガンド分子全体について結合長、結合角、各々のRMSZ(root-mean-square value of the Z-scores)が求められていますが、こちらは[ 0 - 1 ] の間に収まることが期待れる値で、1よりも大きい場合over-fittingである可能性が示唆されるそうです。

 

また「#|Z| > 2」はZ-scoreの絶対値が2よりも大きく外れ値となっている bond / angle の数、および分子中に占める割合(%)だそうです。

 

Validation Report の中ですでに黄色にハイライトされているように「RMSZ」、「#|Z| > 2」ともにかなり怪しい値を示しています。

 

リガンド部位のモデルの指標としては以下のような値・・・

f:id:magattaca:20181111165615p:plain

Fig. 9 Ligand の占有率と温度因子

前回ご紹介した目安では 

占有率 < 0.5  or  温度因子 > 50 Å2   の場合、結合様式の信頼度低い

・原子レベルで比較対照する場合は、 占有率 1.0  かつ  温度因子 < 30 Å2 が好ましい

とのことでした。

占有率については問題ありませんが、温度因子としてはモデルを鵜呑みにしてはいけなさそうです。

 

それでは、Fig. 8 で指摘した4点の部位についてそれぞれ構造を見てみたいと思います。

 

①単結合を2重結合として認識している部位

f:id:magattaca:20181111171535p:plain

Fig. 10 Geometry Quality 描画 リガンド部位拡大-1

赤丸で囲んだ部分、C19は 2 Geometry Problems、Clash ありと、原子の位置に問題がありそうです。

PDBでは3次元の配置から自動でアノテーションしているため、結合次数の誤りが生じることがあるということでした。

C19の位置が誤っており、O2-C19-C20-O3 が平面となるような配置となってしまったため、C19-C20 が2重結合として帰属されていると考えると理解できそうです。

 

② N の位置の違い、③不斉点の誤り

f:id:magattaca:20181111174525p:plain

Fig. 11 Geometry Quality 描画 リガンド部位拡大-2 および 該当原子の温度因子

2次元構造レベルで複数の問題点を含むピロリジン骨格ですが、Fig. 11に抜き出したように3次元構造でみてみるとピロリジン環とフェニル基とを繋ぐ結合を中心としてGeometry Problemsを含む原子が並んでいます。

PDBファイルから該当の原子の情報を抜き出してみると、いずれも温度因子 が 50 Å2 以上 となっています。

「リガンドについては温度因子が 50 Å2 以上の場合、結合様式の信頼度が低い」とする目安と見事に一致しているように見えます。

 

格好いいので電子密度の図も貼っておきます。

f:id:magattaca:20181111175846p:plain

Fig. 12 Electron Density Map (2fo - fc) との比較

・・・よくわかりませんがピロリジン環にぶら下がっているヒドロキシル基やカルボキシル基はあまり電子密度が内容にも見えます。


④シアノ基がアミノメチル基となっている

f:id:magattaca:20181111180929p:plain

Fig. 13 Geometry Quality 描画 リガンド部位拡大-3

フェニルから直線的にのびるであろうシアノ基が曲がっています。確かにこの3次元座標からシアノ基として認識するのは無理です。

 4.まとめ

以上、PDBのページで公開されている情報、および3D viewerをもちいて、「構造の質」という観点から、これまで眺めてみてきた構造を再度眺めてみました。

描画方法を変えてみるだけで、思った以上に問題点がわかりやすくなったように思います。

とりあえず、こちらの結晶構造をベースとしてそのまま議論するのはやめた方が良さそうです。

 

PDBのUser Guide等をざっと眺めただけで記載しているため、上記内容に誤りがあるかもしれません。ご指摘いただければ幸いです。


 

*************************************************************************************************************

*1) RCSB PDB: 3D View User Guide

 

 *2)

7-1) PDBでは、RSRZをどのように計算していますか? - validation FAQ - - Help - 日本蛋白質構造データバンク

・EDSに関して

The Uppsala Electron-Density Server

Kleywegt, G.J., et al., Acta Cryst. (2004). D60, 2240-2249

http://scripts.iucr.org/cgi-bin/paper?S0907444904013253

 

・RSRZに関して

 Statistical quality indicators for electron-density maps

Tickle, I.J., Acta Cryst., (2012). D68, 45-467

http://scripts.iucr.org/cgi-bin/paper?S0907444911035918

 

・RSCCに関して

Validation of lignads in macromolecular structures

Smart, O.S., et al., Acta Cryst. (2018). D74, 228-236   

http://scripts.iucr.org/cgi-bin/paper?S2059798318002541


*3) 本記事の作成に以下を使用しました。

・RCSB PDB

PDB ID : 5NIX

・Skalniak, L., et al., (2017) Oncotarget 8: 72167-72181

AS Rose et al. (2018) NGL viewer: web-based molecular graphics for large complexes. Bioinformaticsdio:10.1093/bioinformatics/bty419