結(jié)構(gòu)生物學(xué)未來開啟 對(duì)結(jié)構(gòu)生物學(xué)的研究范式產(chǎn)生重大影響

2021-08-19 10:32:57

近日,谷歌旗下DeepMind團(tuán)隊(duì)一周之內(nèi)搞了兩件“大事情”。而華盛頓大學(xué)戴維·貝克團(tuán)隊(duì)的羅塞塔折疊(RosettaFold)也搭載阿爾法折疊(AlphaFold2)的便車風(fēng)光了一把。

這兩款智能程序相繼開源昭示著,智能程序正在開啟結(jié)構(gòu)生物學(xué)的新未來。

大事情

幾天前,DeepMind團(tuán)隊(duì)在《自然》發(fā)表文章,公布了第十四屆國際蛋白質(zhì)結(jié)構(gòu)預(yù)測大賽(CASP14)中奪冠的AlphaFold2的源代碼。

同一天,華盛頓大學(xué)蛋白質(zhì)設(shè)計(jì)研究所戴維·貝克團(tuán)隊(duì)在《科學(xué)》刊文,推出一款名為 RosettaFold 的人工智能程序。該程序基于深度學(xué)習(xí),能根據(jù)有限的信息快速、準(zhǔn)確地預(yù)測出目標(biāo)蛋白質(zhì)的結(jié)構(gòu),“達(dá)到與 AlphaFold2 不相上下的準(zhǔn)確度”。

2020年5月至7月,在CASP14上,AlphaFold2以排名第一的準(zhǔn)確性轟動(dòng)一時(shí)。一時(shí)間,AlphaFold 2“顛覆”“革命性突破”“諾獎(jiǎng)級(jí)成果”等美譽(yù)加身。

很多結(jié)構(gòu)生物學(xué)家還未完全從AlphaFold2開源和RosettaFold誕生帶來的震撼中回過神來。7月22日,DeepMind團(tuán)隊(duì)和歐洲生物信息學(xué)研究所(EMBL-EBI)聯(lián)合在《自然》發(fā)表論文,公開AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)庫(AlphaFold DB)。初始的AlphaFold DB涵蓋了屬于人類以及其他20個(gè)重要物種的大多數(shù)具有較大價(jià)值的蛋白質(zhì), 包含超過35萬個(gè)不同的蛋白結(jié)構(gòu),最終將增加到約1.3億個(gè)三維結(jié)構(gòu)。

“這會(huì)讓結(jié)構(gòu)生物學(xué)乃至整個(gè)生命科學(xué)上個(gè)大臺(tái)階。”清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心執(zhí)行主任王宏偉對(duì)《中國科學(xué)報(bào)》說,“原來大家要用很多實(shí)驗(yàn)手段去解析單鏈蛋白質(zhì)的結(jié)構(gòu),現(xiàn)在由于高水平結(jié)構(gòu)預(yù)測軟件的出現(xiàn),對(duì)單鏈蛋白質(zhì)實(shí)驗(yàn)解析的需求可能沒以前那么高了。但另一方面,對(duì)多個(gè)蛋白質(zhì)或核酸分子形成的復(fù)合體進(jìn)行結(jié)構(gòu)解析的迫切性會(huì)更強(qiáng),所以對(duì)冷凍電鏡的技術(shù)需求量會(huì)更大。”

王宏偉認(rèn)為,這兩款軟件的開源預(yù)示著結(jié)構(gòu)生物學(xué)進(jìn)入新時(shí)代,“未來結(jié)構(gòu)生物學(xué)的研究對(duì)象和研究方式上都會(huì)發(fā)生較大變化,這實(shí)際上是給整個(gè)結(jié)構(gòu)生物學(xué)領(lǐng)域的升級(jí)帶來了新的機(jī)會(huì)”。

“我們已經(jīng)買新電腦了。”北京大學(xué)生命科學(xué)學(xué)院教授孔道春告訴《中國科學(xué)報(bào)》。

這兩款軟件開源后,孔道春團(tuán)隊(duì)就迅速配備了顯卡更好的電腦。

“我已經(jīng)讓學(xué)生用起來了。”孔道春說,“利用傳統(tǒng)實(shí)驗(yàn)方法解析蛋白結(jié)構(gòu)需要跨越諸多障礙,不僅耗時(shí)、費(fèi)力,還不一定能解析出來。與核磁共振、X射線晶體或冷凍電鏡等類似,這些軟件是新的、革命性的工具,將極大推動(dòng)人們對(duì)蛋白質(zhì)/酶的結(jié)構(gòu)和生化作用機(jī)理的理解,將對(duì)生命科學(xué)、醫(yī)藥研究起到極大推動(dòng)作用,甚至?xí)蟠蠹铀偃祟愇拿鞯倪M(jìn)程。”

“本尊”和“復(fù)現(xiàn)者”

“這兩款軟件的基本原理都是利用神經(jīng)網(wǎng)絡(luò),依托現(xiàn)有的大數(shù)據(jù)進(jìn)行訓(xùn)練,當(dāng)然也包括很多專業(yè)的算法,把這幾方面整合到一起,應(yīng)該說是現(xiàn)在蛋白質(zhì)結(jié)構(gòu)預(yù)測精確度最高的兩款軟件。”王宏偉說。

“兩個(gè)軟件各有所長,各有自己的特點(diǎn)。”中國科學(xué)院大學(xué)人工智能學(xué)院教授、中國科學(xué)院自動(dòng)化研究所模式識(shí)別國家重點(diǎn)實(shí)驗(yàn)室研究員楊戈對(duì)《中國科學(xué)報(bào)》說,“可以從三個(gè)方面對(duì)它們進(jìn)行比較。”

一是準(zhǔn)確度。兩者相較而言,AlphaFold2的準(zhǔn)確度更高。AlphaFold2預(yù)測蛋白質(zhì)結(jié)構(gòu)的精度已經(jīng)達(dá)到埃(長度單位,1埃相當(dāng)0.1納米)級(jí),這是它的最大優(yōu)勢。

二是預(yù)測蛋白的復(fù)雜程度。這點(diǎn)RosettaFold略勝一籌。AlphaFold2只能預(yù)測單個(gè)蛋白質(zhì),即一個(gè)氨基酸鏈的蛋白,而RosettaFold可以預(yù)測蛋白質(zhì)復(fù)合體,即兩個(gè)乃至數(shù)個(gè)有相互作用的蛋白質(zhì)。

三是對(duì)計(jì)算資源的要求方面,AlphaFold2的要求較高。“AlphaFold2在模型訓(xùn)練階段對(duì)計(jì)算資源的要求一般計(jì)算中心才能滿足,普通的實(shí)驗(yàn)室不大可能使用。”而RosettaFold的要求通常單個(gè)實(shí)驗(yàn)室就能滿足,“具備稍好一些的計(jì)算機(jī)系統(tǒng)就可以‘跑’起來”。

清華大學(xué)結(jié)構(gòu)生物學(xué)高精尖創(chuàng)新中心研究員龔海鵬介紹說,AlphaFold的第一版和RosettaFold之前的版本,包括其他團(tuán)隊(duì)的思路都差不多,比如,先預(yù)測氨基酸殘基之間的距離,通過一些圖像識(shí)別算法識(shí)別,然后再去折疊蛋白。

“那時(shí)候雖然大家的調(diào)參能力不同,但相互之間沒有本質(zhì)的區(qū)別。”龔海鵬說,“但AlphaFold2采用了全新的架構(gòu),從去年參加CASP14開始就嶄露頭角。”

2020年12月,AlphaFold2的主要研發(fā)者John Jumper作了一次報(bào)告,簡單介紹了一下他們的思路,但很多細(xì)節(jié)并沒有披露出來。

“因?yàn)锳lphaFold2的準(zhǔn)確率非常高,當(dāng)時(shí)幾乎所有研究組都想知道他們是怎么做的,有很多人想去復(fù)現(xiàn)它。RosettaFold是過去幾個(gè)月里復(fù)現(xiàn)得比較快的,也是復(fù)現(xiàn)得最好的,他們根據(jù)AlphaFold2釋放出來的一些信息,相當(dāng)于做了一個(gè)簡化版本。”龔海鵬說,“很多研究組都進(jìn)行過測試,我覺得在預(yù)測精度和準(zhǔn)確程度上,RosettaFold離AlphaFold2還有一定的距離,其效果并沒有宣稱的那樣好。”

這兩款軟件開源完全版后,龔海鵬團(tuán)隊(duì)對(duì)比發(fā)現(xiàn),兩者主體思想雖然差不多,但還是能看出有較大的區(qū)別。“有很多細(xì)節(jié),AlphaFold2的設(shè)計(jì)更合理,因此它的效果也更好。”而現(xiàn)在一些自媒體和宣傳材料稱兩者功能相當(dāng),甚至RosettaFold的某些方面表現(xiàn)更好,配置要求更低,“這可能會(huì)有些誤導(dǎo)”。

“AlphaFold2對(duì)顯卡的要求并不是特別高,預(yù)測的時(shí)候,如果不是特別長的蛋白鏈,比如,預(yù)測幾百個(gè)殘基、上千個(gè)殘基, 1080Ti這樣的顯卡就能‘跑’了。但要預(yù)測2000多個(gè)殘基的蛋白鏈,就需要市面上最好的A100顯卡。”龔海鵬說,“在預(yù)測方面,RosettaFold并沒有太大優(yōu)勢,它在訓(xùn)練上要求的資源少一些。從雙方發(fā)表的文章來看,AlphaFold2在訓(xùn)練的時(shí)候,資源占用大概是RosettaFold的十幾倍,但模型訓(xùn)練好后,真正預(yù)測的時(shí)候兩者對(duì)資源的要求并沒有太大區(qū)別。”

堅(jiān)持“搞事情”

軟件技術(shù)的進(jìn)步使蛋白質(zhì)結(jié)構(gòu)變得“唾手可得”,這將對(duì)結(jié)構(gòu)生物學(xué)的研究范式產(chǎn)生重大影響。

“預(yù)計(jì)會(huì)有一批實(shí)驗(yàn)室轉(zhuǎn)換研究方向,不再做結(jié)構(gòu)預(yù)測的方法研究,轉(zhuǎn)而研究下游的一些問題,比如怎么用這個(gè)工具去做一些事情。但我們還會(huì)沿著這條路走下去。”龔海鵬說,“一是因?yàn)锳lphaFold2的思路不是唯一的解法。二是受其他因素影響,國內(nèi)的研究團(tuán)隊(duì)不能隨時(shí)和谷歌合作,很難用上谷歌最新的模型,所以我們需要有一個(gè)自己的版本。”

“對(duì)這個(gè)領(lǐng)域來說, AlphaFold2可以說改變了不少人的理念。以前生物學(xué)家可能覺得人工智能只是一個(gè)好的工具,但現(xiàn)在,說它將對(duì)這個(gè)領(lǐng)域帶來革命性的影響一點(diǎn)都不過。”楊戈說。

2019年,在美國學(xué)習(xí)生活了20多年的楊戈回國,到中科院自動(dòng)化所從事計(jì)算生物學(xué)方面的研究?;貒笏l(fā)現(xiàn),國內(nèi)的生物技術(shù)研究、原創(chuàng)性制藥行業(yè)遠(yuǎn)遠(yuǎn)沒有發(fā)展起來,甚至有些學(xué)生認(rèn)為生物學(xué)是個(gè)避之不及的“天坑專業(yè)”。

“如果不能很好地抓住發(fā)展機(jī)會(huì),計(jì)算生物學(xué)可能就會(huì)成為我們的‘卡脖子’問題,其背后的新藥開發(fā)研制都會(huì)被‘卡脖子’。”楊戈說。

龔海鵬認(rèn)為,DeepMind團(tuán)隊(duì)的人才、硬件、軟件方面的能力都很強(qiáng),它能解決的訓(xùn)練問題一般的實(shí)驗(yàn)室或小團(tuán)隊(duì)很難去復(fù)現(xiàn)。我們拿它直接去訓(xùn)練,多半訓(xùn)練不出來,所以我們只能參考它的方法,開發(fā)出一些訓(xùn)練代價(jià)較小的等價(jià)方法。

“達(dá)到同一個(gè)目的,不會(huì)只有一條路。”龔海鵬說,“我們還會(huì)一直做下去,包括我了解的幾個(gè)課題組都是這樣,大家會(huì)從不同的角度汲取它的優(yōu)點(diǎn),融入自己的方法中繼續(xù)發(fā)展。”

標(biāo)簽: 結(jié)構(gòu) 生物 未來 研究

關(guān)閉
新聞速遞