magattacaのブログ

日付以外誤報

ケモインフォマティクス討論会 (@くまもと) 観戦記録

よし、サボるか!

ということで、熊本に行ってきました。  

第41回ケモインフォマティクス討論会 (10/25-26 @熊本市民会館)

 

f:id:magattaca:20181028094857p:plain

Kumathon 3

 

 

新幹線を降りると、くまモンさんの首が出迎えてくれるます。 狂気を感じる大きさ。

f:id:magattaca:20181028095905j:plain

 

熊本駅から学会会場の熊本市民会館までは路面電車が走っていました。たまに川がみえるのがいい感じです。会場周辺は繁華街で栄えており、ハロウィンの仮装を楽しむ人々もいました。・・・都会怖い

すぐそばには熊本城も。

f:id:magattaca:20181028101652p:plain

1日目はあいにくの雨模様でしたが、二日目は快晴でした。

街は活気にあふれていてあまり意識していませんでしたが、現在も熊本城は修復中。 

f:id:magattaca:20181028101744p:plain  f:id:magattaca:20181028102157p:plain 

 一日も早い復興をお祈り申し上げます。(*)

 

さて本題の学会についてですが、事前登録の人数に対して想定以上の当日参加者数だったそうです。「来年からは事前登録を・・・」とのお言葉・・・すみません。 

 

内容に関してですが、まあーわからなかった。世の中賢い人がいっぱいいるもんだ、と思いながらウトウトしてました。「椅子が柔らかいせいだ!」と思いましたが、2日目のパイプ椅子でもずっとウトウトしていたので、脳のスペックが足りないだけでした。              

 

でも参加費の元を取りたいので、 備忘録を書いていきます。

まず、発表全体として予想よりも医薬に言及したものが多く、医薬:マテリアル= 2 : 1 くらいという印象でした。

以下、医薬品に関連する発表についてこんな感じで書きます。

 

①  Chemoinformatics のアプローチも一つではない

まず、発表(というよりプログラム)をみて思ったのが、「船津・小寺研究室からの発表が多いなー」ということです。学会のイントロダクションでも、「船津先生が国際的な賞を受賞されることが決まった」とのアナウンスがありました。おめでとうございます。(賞の名前は聞き取れなかった)

同研究室は以下の入門書も作成されたみたいです。

funatsu-lab.github.io

 

第一線の研究室が大学外に向けて基礎を解説してくれるというのはありがいです。

・・・何度読んでも尤度がさっぱりわからない。誰か140字で説明して

 

また、穏やかに始まった学会でしたが、早速、奈良先端大学金谷先生の個性あふれるご講演に驚きました。紹介されていたデータベース、KNApSAcK Family DB ( KNApSAcK Family Top Page )  は、アイコンは親しみやすい感じですが中身は硬派です。

軽い感じで「こんなの作ってみた」みたいな紹介をされていましたが、大量のデータをあつめて管理・運営するのは簡単な話ではないですし、お人柄による面も大きいのではないでしょうか。 (とりあえず私はファンになりました。)

 

データベースに関連して、KEGG (KEGG: Kyoto Encyclopedia of Genes and Genomes)の開発者、金久實先生がクラリベイト・アナリティクス引用栄誉賞に選ばれたそうですね。おめでとうございます。  トムソン・ロイター買収されてた・・・

 

で、標題のChemoinformatics のアプローチについてですが、大きく以下の2つに分けられ、

 (1) データを分析する手法・モデルを開発する 

 (2) データを整備し、データベースを作成・活用する

今回の討論会の発表内容を無理やり地域で分けると、

 (1) 前者は東日本(Chemo-色強め 

 (2) 後者は西日本(Bio-色強め )

という印象でした。

 

図にしてみるとこんな感じ、

f:id:magattaca:20181101224246p:plain

ケモインフォ 版 日本シリーズ開幕!

 

 (1) のアプローチ [左列]

 ・データを解析するための記述子の作成

 ・データから作成したモデル・ルールに従い、新たな情報空間を探索/生成/予測

 

(2) のアプローチ[右列]

 ・データをある基準に従って整備し、データベースを作成

 

[中央] はそれぞれのアプローチから得られる実用的な成果の例

  ・モデル・ルールによる物性予測 / 逆合成解析

  ・データベースに基づく、未知の医薬品ータンパク質相互作用予測

 (オフターゲット/ 副作用 / ドラッグリポジショニング)

をあげています。

 

・・・通天閣を使うためだけの分類

 

②単語整理の更新

学会で聞きかじった単語を、以前作成した図に並べてみます。 

f:id:magattaca:20181103095511p:plain

雑な図 再び

 

③ 発表の紹介

以下、②の単語と関連して個人的に関心のあった発表について紹介します。

一部例外はありますが、基本的に討論会以外でも入手可能な公開情報を参照しています。

また、具体的な手法の解説や精度といった数値は記載していません(そもそも説明できないし、怒られそうなので・・・)

 

3-1) Drug Repositioning / 副作用予測

No. 演題 発表者ご所属
1A01 標的分子を考慮した医薬品化合物の副作用プロファイルの予測 九工大  山西研HP
2B01 漢方薬リポジショニング:ビッグデータ機械学習による漢方薬の効能予測 同上
2B09 Tensor-train分解アルゴリズムによる薬物応答遺伝子発現データからの創薬 同上

 

ドラッグリポジショニングは既存のある疾患にたいして有効な治療薬から別の疾患に有効な薬効を見つける手法です(ドラッグリポジショニング - Wikipedia ) 。ある化合物が本来意図していないタンパク質に作用するのを予測するため、オフターゲットによる副作用の予測にもつながります。この予測を、様々なデータベースの相互作用情報を組み合わせることで達成しようとされている発表でした。

組み合わせる情報として

・異なる二つのレベルの情報を関連づける

 「分子レベル(薬剤-標的タンパク質)」-「表現系レベル(薬剤-副作用データ)」

     Relating drug-protein interaction network with drug side effects. - PubMed - NCBI

・異なる2つの場合の変化の方向性を考慮する

 「薬剤をかけておこる遺伝子変化」- 「 疾患でおこる遺伝子変化」

  Predicting inhibitory and activatory drug targets by chemically and genetically perturbed transcriptome signatures. - PubMed - NCBI

といった内容でした。(解析手法の中身はよくわからなかった。)

 

「なるほど、すごいなー」 と聞いていたのですが、質疑応答の際に「疾患の遺伝子変化は、疾患の前に起こったものか、後かで意味合いが違うのではないのか」という指摘がされており、「おおおお、これが討論会か!ハイレベルすぎる」と外野席で喜んでました・・・。

疾患と変異のタイミングはGWASとの関連からも気になるところです。家族性の遺伝性疾患の場合、原因遺伝子がある程度しぼられ創薬ターゲットのある程度の絞り込みができると思うのですが、GWASのマイナーアレルの組み合わせやmissing heritabilityといった話題になると、「結局、どの遺伝子のどのタンパク質をどう制御すれば治療の見込みがあるの???多数を相手にスクリーニング方針なんてたてられなくない???」となってしまいます。GWASにおける疾患関連遺伝子群と薬剤を変えて起こる遺伝子変化の比較など調べて見たいです。(っていうかそういう研究だったのか?)

 

3-2) 特許情報解析   

No. 演題 発表者ご所属
1A04 特許公開公報文章からの化学物質名の切出しと選別法の検討 筑波大院図情メディア

 

特許は権利を確保しつつも、技術が真似されないよう独特の言い回しで記載されているため、どのように解析するのか興味があったのですがイントロで衝撃を受けました。

「日本語、解析に向いてなさすぎ!」

そもそも

 ・英語と異なり単語ごとに区切られていないので、まずは単語を切り出す必要がある

 ・一つの物質に複数の名前、表記の揺れが大きく同一物質か否かの判定が困難

    (IUPAC、慣用名、漢字-ひらがな-カタカナの組み合わせ)

などなど。

海外の場合、BioCreative V というワークショップで 特許からの生物医学的関連語を抽出するCHEMDNER (Chemical Compound and Drug Name Recognition) というタスクが実施されているそうです。

 

もうGoogle翻訳して英語で処理してしまった方が方がいいんじゃない?と思ってしまいましたが、そもそも物質名が切り出しづらいから翻訳も難しいってことですよね。たぶん・・・。メカブとは??? ( MeCab - Wikipedia ) ?

 

特許解析に関して無料でアクセスできる関連情報としてはこの辺りでしょうか?

① CHEMDNER 関連

 Chemical named entity recognition in patents by domain knowledge and unsupervised feature learning

②日本における各社の取り組みの例

 Japio YEAR Book 2017 寄稿集 

    ・「オープンデータを用いた化学特許情報活用へのアプローチ」富士通研究所

    ・「機械学習を用いた効率的な特許調査方法」 花王株式会社  

 

3-3) Chemical Genomics (chemogenomic-based virtual screening) 

No. 演題 発表者ご所属 (個人HP URL)
2Y04 能動的学習による化合物モデリング、および、導かれた機械学習の真実 京大院医 ( Brown先生HP)

 

Ligand-based Virtual Screening 、Structure-based Virtual Screening 以外のVSの手法としてChemogenomic VS についての発表、だったと思うのですが、ちょっとJ.B. Brown先生が衝撃的すぎて内容を覚えていません。

もう、日本語が流暢とかそういうレベルじゃなかった。

一応、

ケモゲノミクス(ケミカルゲノミクス、ケミ カルバイオロジー)とは、「標的遺伝子(タンパク質) に作用する活性化合物をゲノム規模で探索すること によって、生体系を構成する全ての遺伝子(タンパ ク質)と化合物との相互作用を包括的に理解するこ と」を目指す研究分野

日本化学情報化学部会誌 30巻(2012) 4号 巻頭言

ケモゲノミクス: ゲノムからケミカルスペースへ奥野 恭史 教授

だそうです。

Brown先生のご発表の内容は以下の内容だと思います。 ・・・たぶん

Future Medicinal Chemistry, 9(4):381-402   /  プレスリリース 

 

No. 演題 発表者ご所属 (Lab website)
1A06 リガンドベースのヴァーチャルスクリーニングにおけるコンフォメーションの影響とアンサンブル効果について 奈良先端大 ( Data-driven chemistry laboratory )

 

ご発表内容はバウンドコンフォメーション(共結晶構造中のリガンド)と計算で求めたエネルギー安定な配座の比較、及びその配座のVSへの影響についてでしたが、その中でTTS(Turbo Similarity Search)という手法が紹介されていました。  (J.Med.Chem.2005(22)7049 )

 LBVSの類似性検索において、クエリーを一つ使うよりも、そのクエリーと似た複数の構造を追加のクエリーとして用いた方が良い結果が出るそうです。

 

ご発表では2つの事例を紹介されていましたが、なぜそのターゲットを選択したのか知りたいと思いました。例えばリガンドがプロスタグランジン系のような直鎖分子なのか、アスピリンのようなほぼ自由度のない分子なのかによって、配座考慮の重要性は大きく変わってくるのではないでしょうか?

 

3-5) 記述子とモデルの解釈可能性

No. 演題 発表者ご所属 
2B03 電子状態インフォマティクス による生体アミン受容体アンタゴニストの探索 熊本大院自然科学
2Y01 アミノ酸との相互作用マッピング(AAM)記述子に基づいたヒット/リード化合物の骨格改変方の開発 富士フィルム

 

ケモインフォマティクスにおける記述子の説明・・・

化合物の化学的特徴を、部分構造の特性や物理化学的性質など数値化して表した特徴ベクトルを意味する。( バイオキーワード集|実験医学online:羊土社)

 

いくつかの発表で、新しい記述子の考案や、記述子どのように利用・解析すれば良いかという内容が取り上げられていました。 その中で共通する話題として上がっていたのが「解釈可能性」という問題です。

精度よく予測するモデルができたとして、そのモデルの有用性をどのようにすればウェットの実験者に理解してもらえるか、というのがChemoinformaticsの現場でとりくまれている先生方の悩みの一つのようでした。 確かに「説明はしないがこれは当たるからやれ」といわれても、「じゃあ作ってみるか」とはなりづらいのかもしれません。

 

富士フィルムの方の提案されていた記述子は非常に興味深く、もっと内容を知りたいと思ったのですが、如何せん企業からのご発表ということで開示できないことが多く、発表者ご本人も説明しづらそうでした。発想としてはCCDCの IsoStar に似ているようにも思いましたが、CCDCの場合は相互作用を一般化しようとしすぎて、逆にこれどう使うの??という印象なのに対し、こちらはアミノ酸単位とすることでうまく解決しているのかなという感じです。軽い事例でいいから論文化してくれないかな   (できればOpen Accessで・・・)。  あこがれの低分子X線結晶構造データベース CSD ・・・(有料)

3-6) 深層生成モデル(構造生成)

No. 演題 発表者ご所属 (Lab website)
1P04 深層生成モデルを利用した新規医薬品構造提案手法の開発 東大院工 (船津・小寺研)
2B11 生成構造の多様化を目指した化学空間探索型構造生成アルゴリズムの改良 同上

 

新しい構造をいかに自動で発生させるかというテーマ。

3-5) とも関連すると思うのですが、様々なトピックにおいて「順問題 と 逆問題」の難しさが挙げられていました。 化学に関して言えば「構造からモデルをつくり機能を予測(順方向)できるようになったとしても、欲しい機能からそれを満たすような構造をつくる(逆方向)は難しい」といった内容です。

 

この問題について、「QSPR (順方向)とそれに対する inverse QSPR (逆方向) 」を例に非常にわかりやすく説明されている発表がありました。

QSPR の流れが以下とした場合に、

 ・[構造] →  数値化 → [記述子ベクトル] → 統計モデル → [物性]

inverse QSPRで逆にたどろうとすると、

 ・[記述子] から[物性]を予測する統計モデルが非線形関数なので、逆が難しい

 ・[構造]から[記述子]を生成する数値化の段階で情報が失われるので、

  逆方向への情報が不十分になる

とのこと。なるほど!

 

残念ながらイントロ以降の研究の中身は私では理解できなかった・・・。

構造生成については深層学習が熱いのか複数の発表でとりあげられていました。 ACS Cent. Sci. 2018(4) 268  

読んでもわからないだろうな、とおもっていたらこんな記事を見つけてしまった。

化合物でもDeep Learningがしたい!   ・・・ 日本語でもわからなかった!

 

SMILESから構造を生成するのに学習が必要というのがよくわからないのですが、canocical SMILESは一意的にルールを定めているのだから改めて学習しなくてもルールを指定すれば良いわけではないのでしょうか?

 

3-7) 逆合成解析の自動化

No. 演題 発表者ご所属 
2Y02 旭化成ファーマにおけるAI/機械学習創薬研究への活用 旭化成ファーマ 

 

個人的には、二日間の討論会の中で2日目午後の若手連携セッションがもっとも興味と一致しており、楽しかったのですが、その中でもこちらの発表は衝撃的でした。

発表者のご専門は有機合成でありながら、自動で逆合成を提案するシステムを作成されたとのこと。   ウェットもドライもバリバリとか、そんな方いらっしゃるんですね・・・。

システムのデザイン方針がウェットの合成化学者の思考がよくわかっている方ならではという感じで、特徴は以下の2点です。

 ①逆合成の終点が、国内で購入可能な試薬

 ②ケミストが使いやすいようWeb Applicationとしても開発

 

ここまでお膳立てされたら「ちょっと使ってみよう!」となりますよね。 

 

私見ですが、「解釈可能性(解釈できないから使わない)」という現場の意見の多くは「納得感」や「便利さ」で解決するのではないかと思ってます。他の仕事の合間に気軽に使ってみることができて、それが感覚に合うような結果を出し、しかも実行に移しやすい(試薬購入までサポート)となったら、原理とか裏側でなにが動いてるとか考えずとりあえず使いますよねー。

先輩の後追い実験で修論ごまかした私からすると雲上人感がすごいんですが、この辺りを読めば私もスーパー化学者になれるのだろうか?

 

合成手順を自ら導き出すAI | Nature ダイジェスト | Nature Research /  Nature 555 604 (2018) 

ACS Cent. Sci. 2016(2)725 / ACS Cent. Sci. 2017(3)1103 / ACS Cent. Sci.2017(3)1237

 

手法についてUS特許から深層学習したと解説されていましたが、物質特許をベースにした場合と製法特許をベースにした場合で提案される逆合成に違いが出たりするんでしょうか?物質特許ベースだと、最終工程がカップリングになる(探索で化合物の種類が増やしやすい)けど、製法特許ベースだと遷移金属の残存を嫌うから、最終工程近くにはカップリングをもってこない、みたいな違いがでたら面白いですよね。あとは信頼度は高いけどカラム必須な光延反応の優先度に差が出る、とか。

 

3-8) リードアクロス(計算毒性学)

No. 演題 発表者ご所属(個人HP URL)
2Y03 インビボ毒性試験データベースを用いたラット反復投与毒性のインシリコ予測 産総研 (発表者HP)

 

こちらは環境・企業・行政全てに負荷の大きい毒性試験に対してin silico予測を試みようとする非常にチャレンジングな研究です。

以前の記事で、ICH ガイドライン(遺伝毒性)へのインシリコ手法の導入に少し触れましたが、こちらの研究でとりあげられているラット28日間反復投与毒性はそれとは段違いに項目数も多く、ヘビーな試験です。

 

社会に向けた教育・情報共有といった側面も大きいご発表だと思ったので、要旨集から少し詳しく内容を紹介させていただきます。

 

まず、インシリコ毒性予測の枠組みには以下の二つがあるそうです。

(ⅰ) (定量的)活性相関 ((Q)SAR):

      化合物の物理化学的性状等と毒性の強さとの関係を表す数理的な式を導出し、

   その関係式と評価対象物質の物理化学的性状等から、毒性を予測するアプローチ

(ii) リードアクロス:

  評価対象物質と類似している物質の毒性データを代用、もしくは参照して、

  評価対象物質の毒性を予測するアプローチ

 

今回の研究は

 ・予測対象:ラットインビボ28日毒性試験

 ・手法:リードアクロス

 ・実測値取得元 : (独)製品評価技術基盤機構 (NITE) による、

                                  有害性評価支援システム統合プラットフォーム(HESS)のデータ

 ・データ選定理由 : OECDのテストガイドラインに従い、

          GLP準拠で実施された信頼性の高い動物実験データ

          HESSは継続的に更新されており、管理状態が良いデータベース

 ・使用アルゴリズム:  k-近傍法 

         類似度を重視するリードアクロスの考え方との相性の良さから選択

とのことです。

 

作成されたモデルは数値的のみをみるとあまり高いとはいえない結果ですが、同分野の他の手法と比較した場合では「そこそこの値」とのことです。また、「精度を高めるためには複雑なモデルでも構わない」というお考えでは無いようでした。理由としては、科学的リスク評価とはいえ最終的な決定は人間が下す以上、解釈可能性が重要視される傾向にあるといったことを述べられていました。(このあたり私の記憶違いかもしれません)

 

3-9) 天然物と環境物質代謝

No. 演題 発表者ご所属(研究室URL)
2Y05 天然物生合成と環境物質代謝のケモインフォマティクス 東大院工 (船津・小寺研)

 

医薬品には直結しないかもしれませんが、個人的には酵素の分類についての説明、有機合成化学の反応と酵素の反応の違いなどのご説明が興味深かったです。

人工的に改変した酵素による新規骨格の作成などの報告が増えていますが、EC番号はどのように分類されるのでしょうか? 例えば以下のようなプログラムでは一般的な有機合成化学では難しそうな様々な骨格が一挙に合成されています。

生物合成系の再設計による複雑骨格機能分子の革新的創成科学

天然物からの創薬が下火の現在、人工改変酵素がどのような化学空間を切り開いて行くのか気になるところです。 

AI創薬の次はAE (Artificial Enzyme)創薬だ! (雑) 

 

しかし発表者の小寺先生は座長や司会をされている時の落ち着いた感じとは打って変わって怒涛の業績紹介。Brown先生といい、プログラム終盤にアクセル全開の演題をもってくるのはなぜなのか??

 

④まとめ

2日間の討論会の最後は、三井化学で長年計算化学に携わられてきた三戸先生によるご講演。計算化学の歴史の振り返りと、企業の中で計算化学者がどのように他の部署と関わっていけば良いか、という点について若手へのエールという形で締めくくられました。

 

今回、専門外の学会に参加してみた感想ですが「部外者すぎて面白い!」。 

実際のところ、具体的な研究内容やディスカッションは全く理解できなかったですし、大抵寝ていたのですが、

 ・分野の関心・問題点について専門家が簡潔にイントロで説明してくれる

 ・複数回出てくる内容・文献 = ホットトピックと読んだ方が良さそうな文献がわかる

 ・なにより日本語!

という点で、インターネットを漫然とみているよりも賢くなった。・・・と信じたい

また全体的に和やかな雰囲気で、突然のハプニング (他の会場の音声が入り突然表彰式の実況が始まったり、会議室の電話が鳴り始めたり)にも穏やかに対応という感じの良い学会でした。

 

問題は、優秀な人が多すぎて軽く絶望・・・とか、仕事をサボったツケが・・・とか、交通費のこと考えてなかった・・・など?・・・割と切実。

 

なんというか、名刺を一枚も消費せずに帰ってきたあたりで社会人としての問題も感じましたが、仕事関係ないしまあいいや!!

 

f:id:magattaca:20181103094519p:plain

インストールから教えてください・・・


  

*************************************************************************************************************

*1 熊本地震における有機合成化学系実験室での状況について、熊本大学石川勇人先生(The Ishikawa Group)が有機合成化学協会誌に寄稿されていました。

熊本地震からの復興と教訓  有機合成化学協会誌 2017 年 75 巻 3 号 p. 259-263

協会員じゃないから読めない・・・

*************************************************************************************************************