專家解讀諾貝爾化學獎,化學家還不會“失業(yè)”

[日期:2024-10-11] 作者:季敬杰 次瀏覽 [字體: ]

“生命的奧秘不是純粹的生物學問題,它不是孤立的。要研究這樣一個復雜生命過程,需要用到生物、化學、物理、數(shù)學、計算機等等?!?/span>


人類研究者在對問題的敏銳上是目前AI比不上的,也能夠很快地擁抱新技術助力研究。


北京時間10月9日下午,2024年諾貝爾化學獎在瑞典揭曉。獎項授予大衛(wèi)·貝克(David Baker)、德米斯·哈薩比斯(Demis Hassabis)和約翰·詹珀(John Jumper),以表彰他們在使用機器算法解讀蛋白質(zhì)結構方面所作出的巨大貢獻。


解析蛋白質(zhì)結構是困擾了科學家50年的難題。蛋白質(zhì)是生命的基石,不僅組成了我們身體的器官組織等基本結構,還作為荷爾蒙、生物信號傳遞物質(zhì)、抗體等廣泛參與各種生命過程。蛋白質(zhì)由20個氨基酸排列組合成的長鏈折疊而成,就像同樣的紙能折成紙鶴也能折成盒子,不同的折疊方式所形成的結構決定了蛋白質(zhì)的功能。


氨基酸鏈條在被細胞生產(chǎn)出來之后,會迅速自發(fā)折疊成具有特定結構的蛋白質(zhì)??茖W家們后來發(fā)現(xiàn),指導折疊的“命令”就藏在氨基酸鏈條的序列之中,自此開啟了對氨基酸序列和蛋白質(zhì)結構之間關系的科學探索。


與這個領域差不多同時開始發(fā)展的是計算機科學中神經(jīng)網(wǎng)絡的研究。這種算法的設想是建立類似大腦的計算系統(tǒng),其中每個神經(jīng)元節(jié)點能夠接收來自其他節(jié)點的信號,并計算是否向下一個節(jié)點發(fā)送信息。在這樣的網(wǎng)絡中,信息通過多層次的神經(jīng)元加權計算,就能最終形成對輸入信息模式的識別??茖W家們早已嘗試通過這種技術來計算氨基酸序列和蛋白質(zhì)結構之間的關系,但這兩個領域都進展緩慢。


在2010年之后,神經(jīng)網(wǎng)絡技術得到了重大突破,神經(jīng)元的層數(shù)從2層增加到了成百上千層,從淺層網(wǎng)絡變成“深度學習”和“人工智能”(AI),并能夠完成對話、圖像識別和生成等復雜任務。與此同時,通過實驗生物學家的不斷努力和冷凍電鏡等觀測技術的發(fā)明,被解析出來的蛋白質(zhì)結構從幾種暴漲到14萬種,為深度學習提供了數(shù)據(jù)基礎。


復雜的蛋白質(zhì)結構問題最終迎來“人工智能”時刻。來自谷歌公司的哈薩比斯和詹珀創(chuàng)造了AlphaFold系列算法,通過不斷迭代,2020年誕生的AlphaFold2已經(jīng)能夠以超過90%的正確率通過氨基酸序列預測人類所知的2億種蛋白質(zhì)結構。而蛋白質(zhì)計算領域的先驅者貝克除了創(chuàng)造多種預測算法外,更加開創(chuàng)了在沒有現(xiàn)存蛋白質(zhì)結構參考的情況下“從頭設計”蛋白質(zhì)的先河,為藥物設計等領域作出了巨大貢獻。


今年是諾貝爾獎的“AI年”,物理學獎與化學獎都頒給了AI相關的工作。這是否意味著AI已經(jīng)能夠取代科學家的工作?本屆得主為何獲得化學獎而非生理學或醫(yī)學獎?蛋白質(zhì)結構問題已經(jīng)被解決了嗎?為了解答這些問題,澎湃科技采訪了上海交通大學化學化工學院長聘教軌副教授沈琦。


頒給蛋白質(zhì)結構問題,更是頒給AI


為何蛋白質(zhì)研究沒有獲得生理學獎或醫(yī)學獎而是獲化學獎,而AI又能獲得化學獎?對此,沈琦表示,生命的問題本質(zhì)上就涉及到交叉學科,而像AI這樣的強力工具能幫助人們進行探索。


“生命的奧秘不是純粹的生物學問題,它不是孤立的。要研究這樣一個復雜生命過程,需要用到生物、化學、物理、數(shù)學、計算機等等?!彼f。


以蛋白質(zhì)為例。組成蛋白質(zhì)的基本單元氨基酸是由一個氨基、一個羧基、一個氫原子和一個側鏈基團組成。不同氨基酸的區(qū)別在于它們的側鏈基團不同,這影響了它們在蛋白質(zhì)結構中的相互作用和功能。當兩個氨基酸相遇時,其中一個的羧基結構會和另一個的氨基發(fā)生反應,形成肽鍵將它們連接在一起,如此形成多肽鏈。這便是蛋白質(zhì)的“一級結構”。


多肽鏈會以螺旋或折疊的方式形成特定的“二級結構”,這些二級結構又能通過連接結構形成更復雜的三級結構。正如在折紙時涉及到紙張硬度、施力大小等多種物理、材料規(guī)律,多肽鏈的折疊也是由氨基酸序列中原子和分子的相互作用決定的,如氫鍵、疏水作用、離子鍵、范德華力等。


沈琦說,要研究這個過程,就涉及到微觀層面的物理化學知識,如力場等。“能量最小化”是研究蛋白質(zhì)折疊的一個重要線索。就像“水往低處流”一樣,蛋白質(zhì)折疊也傾向于形成能量最小的狀態(tài),科學家們因此可以通過計算分子間的相互作用力,模擬蛋白質(zhì)的折疊和動態(tài)行為。


從這個角度上來說,“蛋白質(zhì)結構問題的研究頒生命科學、化學甚至物理獎,都是可以的。”而隨著AI的出現(xiàn),蛋白質(zhì)預測的準確率和效率都得到了前所未有的提高,解決了困擾化學家多年的重大科學難題,并成為廣大科研人員手中的得力工具,獲獎實至名歸。


沈琦告訴澎湃科技,有了這些預測工具之后,科學家們能夠根據(jù)氨基酸序列快速計算出蛋白質(zhì)的精細結構,大大提高工作效率。另外,通過AI也能高效設計和驗證新的蛋白結構,幫助新藥開發(fā)和人工生命體的構建。


“從蛋白質(zhì)一級結構預測高級結構是化學生物學家、結構生物學家和物理化學家都非常關心的一個重要問題。”他說,“AI確實在某種程度上解決了它?!?/span>


AI只是工具:生物化學家還不會“失業(yè)”


“自己辛辛苦苦花費數(shù)年解析出來的蛋白質(zhì)結構被AI很快精準預測了,很多結構生物學家心里確實會不舒服?!鄙蜱f。不過在他看來,AI在蛋白質(zhì)結構預測領域還有很長的路要走。


他認為,蛋白質(zhì)結構預測的終極問題還未被解決,AI算法對我們徹底理解底層生物規(guī)律的幫助有限。AlphaFold一類的大模型本質(zhì)是通過對已有的大量氨基酸序列和蛋白質(zhì)結構數(shù)據(jù)的比對而形成概率預測,發(fā)現(xiàn)更有可能的結構,對于蛋白折疊過程背后的科學規(guī)律的認識還很有限。


雖然目前AI預測蛋白質(zhì)結構的準確率很高,但也不是完全精確?!皩τ诘鞍踪|(zhì)來說,序列上百分之幾的差異可能就是完全不同的功能。現(xiàn)在的AI還做不到那么精確,仍然需要依靠實驗觀測去解析?!鄙蜱f。


此外,對于蛋白質(zhì)的動態(tài)結構以及蛋白質(zhì)的相互作用,AI的表現(xiàn)也差強人意。“蛋白質(zhì)在溶液中是動態(tài)的,彼此之間還會進行復雜的相互作用。另外,細胞中存在大量沒有正常結構的‘天然無序蛋白’,但卻發(fā)揮著重要的作用。這些AI都還不能很好地預測?!?/span>


沈琦認為,AI的成就是以傳統(tǒng)結構生物學家數(shù)十年的努力作為基礎的。“沒有他們通過實驗解析所得到的結構數(shù)據(jù),AI是無法訓練的?!?/span>


此外,人類研究者在對問題的敏銳上是目前AI比不上的,也能夠很快地擁抱新技術助力研究?!皬腦射線晶體學,到冷凍電鏡,再到現(xiàn)在的AI,仔細觀察的話優(yōu)秀的學者并沒有被技術的更新所淘汰,而是能夠很快地擁抱新技術?!彼f。


對于人類來說,知識背后的邏輯和直覺或許是最大的優(yōu)勢。“讓一個生物學家去學AI,或許比讓AI工程師更容易在生命科學領域出成果”。另外,沈琦表示,“一個好的技術最終是要做到普及性,讓大家可以比較快地去學習。以后用AI去預測蛋白,就像查手機地圖那樣簡單?!?/span>


(原標題:2024化學諾獎專家解讀:頒給蛋白質(zhì)預測和AI實至名歸,化學家還不會“失業(yè)”)