「分子の表現についてのレビューと実践ガイド」のメモ ~part 4 マクロ分子の表現~
レビューをDeepLに投げ込みながら読んでいるのでそのメモです。
ここまで3回で見て来たものは低分子に関するものでした。最後はマクロ分子の表現です。ケモインフォマティクスとバイオインフォマティクス の間の領域って感じのお話。
なお、順番は一部前後していますが、目次は論文そのままにしてます。また、 Creative Commons のもとで図表・内容を利用させていただいています。*1
- Representations for macromolecules
- Graphical representations for molecules and macromolecules
- AI applications within drug discovery using molecular representations
- Discussion
- Concolusions
- まとめにかえて
Representations for macromolecules
取り上げられているのはバイオポリマーやオリゴマー、合成ポリマーといったポリマー構造を持つものです。
ポリマーには以下の2種類があり、表現が難しくなっています。
- monodisperse:構成するモノマーが同じ鎖長
- polydisperse:確率的な (stochastic)性質があり鎖長が定義されない
またマクロ分子の表現はバイオインフォマティクスの要素が強くなります。
ケモインフォマティクスでは原子レベルで低分子を表現していたのに対し、ヌクレオチドやアミノ酸配列といった配列情報で表現するといった傾向があります。
Amino acid-based stuructures
ペプチド、タンパク質のビルディングブロックであるアミノ酸(AA)は1文字あるいは3文字の略記で表されます。
1文字表記の限界として、遺伝暗号に含まれる20種を表すのには十分ですが、 それ以外にも自然に存在するアミノ酸を表すには数が足りないということが挙げられています。
Peptides
ここでは大きく分けて2つの表記(CHUCKLES、HLEM)が紹介されています。
CHUCKLESはポリマーの配列からそのSMILESを導けるようにしたものです(逆方向の翻訳も可能)。 説明を読むとこんな感じ、、、
CHUCKLESのオリゴマーにおける応用例としてBIOPEP-UWMというデータベース、また拡張版としてCHORTLESが挙げられています。
さて、より広範なマクロ分子を表現できる表記として以下の2つが挙げられています。
- HELM (Hierarchical Editing Language for macromoleluces):SMILESベース
- SCSR (Self-Contained Sequence Representation):v3000 Molfile フォーマットベース
以下ではPfizer社により開発されたというHELMの詳細についてもう少し見てみます。イメージを掴むために先に図を引用・・・
構成要素として複数のタイプの構造を持つ組み合わせを表現するシステムを作ることを目的として開発されたそうです。
HELM2ではさらに発展してポリマー混合物や自由形式のアノテーションも可能となっており表現できる幅が増えているそうです。
HELMは多くの製薬会社で実装されており、様々なデータベースやパッケージでもサポートされているそうです。 ChEMBLやRDKitにもあるんですって!知らなかった。。。
で、HELMについて字数を割いて詳しく説明されているの何でかな?と思ったのですが、生物と化学の融合地点としてBiocheminformatics表現が広がることで、 ペプチド医薬品といった低分子と生物学的製剤の間にあるような分野の表現が発展することを重視しているようです。
つまり、アトムベースのSMILESを配列ベースの表現に加えることで、天然のL-アミノ酸と非天然のD-アミノ酸の混ざったものといった表現の拡張ができる。非天然アミノ酸の組み入れはペプチドのバイオアベイラビリティの改善で重要なので、記述の幅が広がることでペプチド医薬の発展も記述できる、取り扱えるようになるというわけです。
なるほど!・・・それを踏まえた上で言わせてほしい! Fig. 9の図、フェニルアラニンに修飾(Cl)入ってるからFで表現するのは違うと思うで!!
Proteins
タンパク質(50以上のアミノ酸残基)については、PDBデータベースとそこで使われている表現が挙げられています。
PDBにおける原子は以下の情報で表されています。
1. 連続する番号
2. 特定の原子名
3. 対応する残基の名前と番号
4. 鎖(chain)を特定する1文字のコード
5. 空間座標 (x, y, z)
6. 占有率 (occupancy)
7. 温度因子 (temperature factor)
2008年にはProtein Line Notation(PLN)というものがBiochemfusionにより開発されPubChemにも実装されているそうです。
PLNでは残基の構造を擬原子(pseudo-atom)で表すことで、化学表現と配列フォーマット間の変換をロスなくできるようになっているそうです。
Key macromolecules
グリカンや合成ポリマーといったマクロ分子についても見ていきます。
Glycans
グリカン(olygosaccharide、polysaccharide)にもデータベースがありますが、monosaccharideベースの表記となっています。
ドッキングといった相互作用解析ではアトムベースの表記が必要となるので、 グリカンを医薬品探索におけるリガンドとして扱うにはmonosaccharideベースの表記では不十分です。 そこで、アトムベースの表記へと変換するツールの開発が行われています。
また、Web3 Unique Representation of Carbohydrate Structures (WURCS)という表現が開発されています。
WURCSは多くのデータベースに実装されていますが、ケモインフォマティクス のソフトウェアではほとんどサポートされていないそうです。
他のアプローチとして、ファーマコフォアに基づくものや言語モデルに基づくものといった研究もなされているようです。
Polymeric drugs
ポリマーの表現として最近、BigSMILES構文というものが開発されました。
以下のようなポリマーをエンコードすることができます。
まだカノニカルなものはなく、応用例もないようですがさらなる研究が行われているそうです。
Graphical representations for molecules and macromolecules
先のセクションで見たマクロ分子の表現は、データの格納とケモインフォマティクス的解析を意図したものでした。 ここでは、マクロ分子とその物理化学的特性の可視化表現をみていきます。
2Dと3Dをそれぞれ扱いますが、何はともあれ見た方が早いので図を引用しておきます。
2D depictions
分子の2D描写として、骨格構造のラスタ図、ベクトル図がよく使われます (Fig. 10a)。
以下のような点が問題になることがあり、2008年にはIUPACがオススメの標準描画方法を出したりしています。
各ソフトウェアそれぞれより良い描画方法を目指してアルゴリズムの改善等試みられているそうです。
構造そのものの描画以外にも、反応や相互作用の研究といった点でも2Dの描画が使われます (Fig. 10e)。 ここでは分子の置かれた環境と振る舞いの表現が重視されています。
Fig. 10には描かれていませんが、以下の3つも特徴のある例として取り上げられています。
3D depictions
3D描画のソフトウェアの例としてAvogadro、PyMOL、VMDといったものがあります。
表現方法の例として以下が挙げられています。
vdW球による可視化の応用例として、分子表面の描画による相互作用解析が挙げられています。
3D描画はドッキングや機構の研究で、2D描画は構造活性相関研究でよく使われているそうです。
以上がマクロ分子の表現でした。このあたりがAIにどのようにつながっていくのか、最後に応用例を見ていきたいと思います。
AI applications within drug discovery using molecular representations
Representations for macromolecules
マクロ分子の表現において人気のある応用はタンパク質構造の予測です。
また、グリカンの分野における研究例として、
- 擬受容体(pseudo-receptor)モデルを使ったバーチャルスクリーニング
- 機械学習によるグリカン-タンパク質相互作用の解析
- グリコシル化部位予測
が取り上げられています。
Graphical representations for molecules and macromolecules
可視化については、さらなる高速化の研究が行われており、最近ではバーチャルリアリティや3Dプリンティングといった技術と紐づいています。
また、増え続けるデータを処理するための構造マイニング技術として、Optical Character Recognition (OCR)が挙げられています。 機械学習や確率的パターン認識技術により、2D描画の標準的な化学表現への変換が行われていますが依然として課題はあります。
変換が難しくなるものとして、以下のような項目の処理があげられています。
- 画像の解像度
- 化学的略記のコンピュータによる解釈
- テキストに埋め込められた画像
- 複数の構造を含む図に埋め込まれた画像
- 反応パスウェイ中に埋め込まれた画像
- 骨格の式あるいはMarukush構造で表された画像
マクロ分子の表現については以上です。
さて、4回にわたって分子の表現方法について眺めて来ましたが、いよいよまとめの段階に入ってきました。残りはDiscussionとConclusionです。
Discussion
ここまで様々な表現方法をみてきましたが、著者らは医薬品探索における問題を解決するためには、複数の表現を同時に活用することが必要と指摘しています。
タンパク質の構造予測を例として以下のような流れをあげています。
- タンパク質の配列から始まり
- 粗い3Dモデルの作成
- 分子動力学法によるフォールディングメカニズムの理解
- 最終的な配置と構造予測
- ドッキング計算への応用
また、表現の選択に影響する要因として、2点あげられています。
- 表現を生成する手法の複雑さ
- オープンに利用可能なものか否か
・・・確かに。オープンソースツールで簡単に使えるものがあると遊んでみよう、ってなりますもんね!!
また、分子表現の変遷の歴史をたどってきたことを踏まえて、使われ続ける表現とそうでないものとの違い、要因を議論しています。
まず、変化の要因の一つとしてコンピューターテクノロジーの進化が挙げられています。
- ストレージの増強
- プロセッサーの質
- パラレルプログラミング
かつての線形表記、IUPAC-Dyson、WLNは当時の状況としては妥当だったものの、主に人間が操作するもので、計算機による取り扱いが難しかったので、計算機がより使われるようになると廃れていきました。
現在ではよりコンピューターが単純に扱える表現が使われる傾向にあります(molecular string representation)。また、より計算が必要となる詳細な表現も現在では使えるようになりました(e.g. hashed fingerprints)。
別の要因としては、ケモインフォマティクスコミュニティにおける受容があげられています。より人間が読める(human readable)表現の方が好まれ、結果として長く使われるようになったかも、、、らしいです。
最後に、分野の違いの及ぼす影響があげられています。
異なる分野(chemoinfomatics, bioinfomatics, AI)ではグループ内の歴史的、継続性の理由から表記の選択、使われ続けるか否かが変わってくるのではないか、ということです。
継続は力なりですね!(違うか)
Concolusions
分子は複雑な構造なので、その表現においては様々な特性とともに、低分子とマクロ分子のそれぞれの異なる性質といった点も表現しなければなりません。ケモインフォマティクス 、バイオインフォマティクスの発展とともに、医薬品探索のプロセスが加速し、分子の振る舞いについての理解も進んで来ました。このレビューで取り上げられているような様々な表記方法を学び、AI駆動の医薬品探索の裏側を知ることでもっと有効活用できるようになると良いですね!
みたいな感じのことが書いてありました!
まとめにかえて
以上、懲りもせずに適当なメモを垂れ流してみました。ひたすらCreative Commonsにのっかっていくスタイル!
線形表現の歴史や、派生系、マクロ分子の表現等々、知らないことがたくさんあって個人的にはとても勉強になる文献でした。 途中謎の自作の表や無意味な箇条書きが出て来たのは、私が文章では単語の関係性が理解できない読解力低いマンだからです。 human-readableですら私には遠いですわー。
さあ、これでAI創薬に飛び込む準備ができた!・・・のか?
知らんけど。。。
色々と間違いがありそうなのでご指摘いただけると幸いです。