上海2023年3月1日 /美通社/ -- 在創(chuàng)新藥"內(nèi)卷"時代,CADD/AIDD作為目前生物醫(yī)藥領(lǐng)域火熱的前沿技術(shù),為藥物發(fā)現(xiàn)與開發(fā)帶來了極大的助力,它們會是新藥研發(fā)"反內(nèi)卷"的破局者嗎?2月24日,由維亞生物舉辦的維亞醫(yī)藥觀"CADD到AIDD,創(chuàng)新破內(nèi)卷?"沙龍同步線上線下成功舉辦,定向邀請了維亞科學(xué)家、學(xué)術(shù)界專家、AI制藥企業(yè)創(chuàng)始人及研發(fā)代表,共同把脈CADD/AIDD發(fā)展動向,探討如何開啟創(chuàng)新藥研發(fā)新范式。
維亞生物生物部高級主任錢玥博士
計算機輔助的藥物設(shè)計(CADD)——為藥物設(shè)計按下快進鍵
都說ChatGPT人工智能顛覆了大家對AI的看法,但這背后計算工具功不可沒。錢玥博士以此為出發(fā)點,介紹了CADD如何幫助藥物化學(xué)團隊快速推進藥物設(shè)計流程,并通過實踐案例深入闡述了CADD中那些至關(guān)重要的計算工具在具體場景中的落地。以CFD靶點為例,在藥物設(shè)計前期,數(shù)據(jù)收集是第一步,對于給定的基因,首先需要在數(shù)據(jù)庫中收集并整合已有的結(jié)構(gòu)信息、骨架的分析及活性數(shù)據(jù)等,以幫助后續(xù)研究快速了解啟動。然后,維亞CADD團隊一般會通過SiteMap、Binding response以及Cosolvent MD從零開始尋找結(jié)合位點,再基于自有的超算中心平臺,結(jié)合維亞200k結(jié)構(gòu)多樣性化合物庫進行高通量虛篩,接著通過分子生成對此前得到的小分子進行一系列的迭代,從而篩選出比較有潛力的骨架。此外,從頭設(shè)計也是維亞尋找苗頭化合物及先導(dǎo)化合物的強有力工具,CADD團隊從已發(fā)表的藥物分子研究中提煉出其藥效團模型,并且可以結(jié)合分子生成及小分子片段的連接,設(shè)計出一整套自動化De novo設(shè)計的流程。進入先導(dǎo)化合物優(yōu)化階段,對于計算化學(xué)來說,最重要的步驟在于做自由能微擾,也就是計算某一分子從A轉(zhuǎn)變到B的自由能變化,得到結(jié)果后再與藥化團隊合作,以展開后續(xù)的優(yōu)化。在此她強調(diào)道,對比薛定諤的模塊,維亞自有的自由能微擾對應(yīng)自由能變化(dG)誤差在1kcal/mol之內(nèi),可信度較高。
中國科學(xué)院上海藥物研究所研究員鄭明月博士
基于AI的藥靶相互作用預(yù)測
藥物靶標相互作用預(yù)測一直是藥物設(shè)計的核心和難點問題,那么如何解決這一難題?鄭明月博士提出了藥物-靶標作用識別可以類比為人臉識別問題的思路,并列舉多個案例分享了基于序列的藥靶作用預(yù)測、基于轉(zhuǎn)錄組的藥靶作用預(yù)測及基于AI的多靶標藥物設(shè)計。同時,鄭明月博士也表示,更精準的藥物靶標相互作用預(yù)測仍需要探索。
"藥物研發(fā)新范式,AI+如何賦能藥物創(chuàng)新?"圓桌討論
在維亞生物首席創(chuàng)新官兼維亞生物創(chuàng)新中心負責(zé)人戴晗博士主持下,華東理工大學(xué)教授兼康仁匯誠創(chuàng)始人唐赟博士、索智生物創(chuàng)始人兼首席執(zhí)行官許大強博士、湃隆生物首席執(zhí)行官李銘曦博士、英矽智能聯(lián)合首席執(zhí)行官、首席科學(xué)官及藥物研發(fā)負責(zé)人任峰博士、晶泰科技首席科學(xué)官張佩宇博士共同討論了3個議題:
Q1:很多人將CADD/AIDD稱為藥物研發(fā)新范式,各位是如何看待藥物研發(fā)從結(jié)構(gòu)驅(qū)動到數(shù)據(jù)驅(qū)動這一趨勢的?
嘉賓們結(jié)合自己在醫(yī)藥行業(yè)多年的從業(yè)經(jīng)驗及公司布局情況發(fā)表了個人看法。唐赟博士表示,AI三要素是數(shù)據(jù)、算法和算力,其概念早在20世紀50年代就出現(xiàn)了,但此后由于數(shù)據(jù)匱乏而經(jīng)歷了很長一段時間的停滯。后來,隨著互聯(lián)網(wǎng)時代的到來,數(shù)據(jù)共享得以推動,特別是近年來AlphaGo、AlphaFold2、ChatGPT等的出現(xiàn)帶動人工智能火了起來,但是這是否會顛覆傳統(tǒng)模式,取代人工操作仍有待商榷。傳統(tǒng)意義上講,CADD被稱為結(jié)構(gòu)驅(qū)動,AIDD被稱為數(shù)據(jù)驅(qū)動?;诖?,唐赟博士認為,AIDD是CADD發(fā)展演變的高級階段,就好比一個硬幣的兩面,缺一不可。兩者結(jié)合起來,共同促進藥物研發(fā)。
許大強博士表示,新藥發(fā)現(xiàn)無外乎設(shè)計、合成、測試、分析四步,AI制藥亦是如此,但AI可以大大提高效率和精度。AI在新藥研發(fā)中潛力巨大,不過目前仍處于過渡階段,未來仍有一段很長的路要走。那么現(xiàn)階段該如何運用AI技術(shù)呢?許大強博士表示,索智通過自有的"端-到-端"的CADD/AIDD技術(shù)平臺"AIxMol",大大地提高了活性分子設(shè)計和優(yōu)化的效率。 同時,根據(jù)索智公司管線研發(fā)需求,搭建了包括多靶點分子設(shè)計等特有的技術(shù)平臺,專門賦能產(chǎn)品的差異化創(chuàng)新。
李銘曦博士認為,CADD/AIDD沒有明顯的定義,兩者是相互融合的。AI是一個很好的工具,幫助研發(fā)人員去提升效率,降低成本,是未來5-10年,甚至10-20年的一大趨勢,也許在未來我們會看到很多創(chuàng)新藥背后都有AI的身影,且這個趨勢是不可逆轉(zhuǎn)。同時,新工具的出現(xiàn),像ChatGPT等,還會推進整個醫(yī)藥研發(fā)往前邁進。
任峰博士從傳統(tǒng)藥化專家的角度進行了分享,他認為,從CADD到AIDD,兩者都是基于計算機,都可以降本增效,但前者側(cè)重于評價,后者更多的在于創(chuàng)造性,從蛋白的結(jié)構(gòu)到生成化合物,最終目的在于生成first-in-class的hit。
張佩宇博士表示,CADD和AIDD是很好的互補。AIDD是自上而下的過程,從數(shù)據(jù)出發(fā)去找出物理規(guī)律的一種方法,而CADD是自下而上的,從原子-原子、分子-分子相互作用出發(fā),找到其中的物理規(guī)律。
Q2:目前AI制藥公司的數(shù)據(jù)源多來自于公開資料,如已發(fā)表的醫(yī)學(xué)文獻,公開的靶點庫、藥企、科研機構(gòu)或院校的公開數(shù)據(jù)等,但專業(yè)的高質(zhì)量數(shù)據(jù)、失敗的數(shù)據(jù)依然難以獲得。如何打破數(shù)據(jù)缺乏的困境,各位有什么好的想法嗎?
唐赟博士表示,數(shù)據(jù)的數(shù)量和質(zhì)量都很重要,尤其是質(zhì)量。我搭建的預(yù)測模型基本都是依靠網(wǎng)上公開的數(shù)據(jù),但是還是比較有限,大部分都是小樣本數(shù)據(jù),這極大地阻礙了AIDD的發(fā)展。尤其是陰性數(shù)據(jù)很缺乏,在公開文獻中也不多見,鑒于此,我們是不是可以呼吁學(xué)術(shù)界在發(fā)表文章時把陰性數(shù)據(jù)也公布出來。對于企業(yè)界而言,每個公司有自己的內(nèi)部數(shù)據(jù),但都是分割的,那么是否能夠幾家公司達成協(xié)議,在小范圍內(nèi)進行數(shù)據(jù)共享,從而達到雙贏的目標。
李銘曦博士分享了湃隆生物在面臨數(shù)據(jù)缺乏問題時的應(yīng)對方法:第一,有意識選擇公開數(shù)據(jù)豐富且高質(zhì)的靶點,就比如我們的CDK靶點,從一個CDK積累數(shù)據(jù),在此基礎(chǔ)上不斷學(xué)習(xí),一直到目前的3個CDK產(chǎn)品。第二、有意識地收集底層的一些小數(shù)據(jù),比如陰性數(shù)據(jù)等,這些在domain類似的靶點中會起到很大的作用。
張佩宇博士認為,數(shù)據(jù)主要有drylab和wetlab兩個來源。drylab對于某一些與結(jié)構(gòu)相關(guān)的研究來說,是一個很好的數(shù)據(jù)來源,晶泰的XFEP等計算工具可以產(chǎn)生大量的干實驗數(shù)據(jù)支持AI建模。對于wetlab而言,小分子合成相對比較耗時,抗體藥則可以快速地表達幾百個序列。晶泰科技通過自動化機器人與實驗人員協(xié)作,不僅能實現(xiàn)7X24小時連續(xù)實驗,更可以快速地拿到高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù)進行反饋迭代,效率更高。
Q3:近日,科學(xué)家們采用類似ChatGPT的蛋白質(zhì)工程深度學(xué)習(xí)語言模型——ProGen,首次實現(xiàn)了AI預(yù)測蛋白質(zhì)的合成,研究成果已在Nature子刊上發(fā)表。生物版ChatGPT未來發(fā)展趨勢如何?將會使藥物發(fā)現(xiàn)哪些環(huán)節(jié)受益?
許大強博士表示:ChatGPT是一個自監(jiān)督學(xué)習(xí)預(yù)訓(xùn)練的語言大模型,它在文本的生成和語言的處理上比較前沿,但可能需要進行針對性訓(xùn)練(包括高質(zhì)量數(shù)據(jù)的finetuning和更多的相關(guān)的人類反饋強化學(xué)習(xí)—RLHF)才會更加適用于生物醫(yī)藥領(lǐng)域的應(yīng)用。他覺得可以應(yīng)用在生物醫(yī)藥的場景包括蛋白設(shè)計和核酸藥物設(shè)計,因為氨基酸序列及核酸堿基堿基更適用于語言的讀取和編輯。
任峰博士表示:ChatGPT應(yīng)用的gpt模型,我們是全球第一家應(yīng)用它來生成分子的公司,且現(xiàn)在ChatGPT的出現(xiàn),進一步證明了gpt模型在生物醫(yī)藥上的可行性。另外,AIDD之所以被稱為工具,主要在于它的局限性,不能make decision。但是如果未來有一個Transformer模型可以訓(xùn)練機器去學(xué)習(xí)并消化藥化知識,那對于AI制藥來說也許將是一種顛覆性的突破。