首頁 > 科技要聞 > 科技> 正文

AI再問鼎諾貝爾化學獎!48歲DeepMind創(chuàng)始人因蛋白質(zhì)結(jié)構(gòu)預(yù)測摘桂冠

新智元 整合編輯:太平洋科技 發(fā)布于:2024-10-10 16:20

10月9日,2024諾貝爾化學獎揭曉。

今年的獎項,一半授予美國華盛頓大學的David Baker,以表彰其在計算蛋白質(zhì)設(shè)計方面的貢獻。

另一半則授予DeppMind的Demis Hassabis和John M. Jumper,以表彰其在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的貢獻。

他們?nèi)欢贾铝τ贏I蛋白質(zhì)的研究。

沒錯,萬物皆可AI,今年的諾獎是妥妥的AI年

根據(jù)委員會的官方公告,今年的諾貝爾化學獎聚焦蛋白質(zhì)。

David Baker成功完成了幾乎不可能的驚人成就:構(gòu)建全新種類的蛋白質(zhì)。

而Demis Hassabis和John Jumper則在2020年開發(fā)了AlphaFold 2,解決了人類50年來的夢想:預(yù)測蛋白質(zhì)的復(fù)雜結(jié)構(gòu)。

我們現(xiàn)在能夠預(yù)測蛋白質(zhì)結(jié)構(gòu)并設(shè)計自己的蛋白質(zhì),這一突破為人類帶來了巨大的益處,開啟了無限可能。

沒想到,我們曾經(jīng)的預(yù)言成真了。

拉斯克大獎再次證明了自己「獲獎風向標」的地位。

Hassabis也度過了傳奇的一天:白天祝福好朋友得諾獎,晚上自己親自得諾獎。

紐約大學助理教授謝賽寧回憶稱,在DeepMind實習期間,Hassabis被問及公司目標時,便提到了獲得多個諾貝爾獎。

而如今,這個使命已經(jīng)實現(xiàn)了一部分。

Demis Hassabis

Demis Hassabis 1976年出生于英國。

4歲起,他就是國際象棋神通,在13歲時達到了大師標準。

1997年,他以雙第一的成績畢業(yè)于劍橋大學,在倫敦大學學院完成了認知神經(jīng)科學博士學位,又在MIT和哈佛攻讀博士后。

2010年,他和Shane Legg共同創(chuàng)辦DeepMind,擔任CEO。

2023年,DeepMind和谷歌大腦合并后,Hassabis擔任谷歌DeepMind團隊CEO。

關(guān)于DeepMind的誕生還有一段傳奇故事:作為14歲以下世界上排名第二的象棋選手,Hassabis在一次聚會上成功征服了Peter Thiel,獲得了225萬美元風投,成立了DeepMind。

John M. Jumper

John Jumper是DeepMind的美國高級研究科學家。

2017年,他在芝加哥大學獲得博士學位。

作為一作,他和同事共同創(chuàng)建了AlphaFold。

2021年,他被Nature列為年度榜單十大「重要人物」之一。

David Baker

David Baker 1962年出生于華盛頓州西雅圖。

1984年獲得哈佛學士學位,1989年獲得UC伯克利生物化學博士學位。

他是蛋白質(zhì)設(shè)計領(lǐng)域的「鼻祖級」人物,設(shè)計出了比AlphaFold更早的蛋白質(zhì)結(jié)構(gòu)設(shè)計算法RoseTTAFold,時間上比DeepMind更早。

作為美國國家科學院院士、華盛頓大學蛋白質(zhì)設(shè)計研究所所長,他聯(lián)合創(chuàng)辦了十幾家生物技術(shù)公司,并入選《時代》 2024年首屆100名最具影響力的健康人物名單。

他們通過計算和AI揭示了蛋白質(zhì)的秘密

支撐生命體各種活動的,是體內(nèi)旺盛且多樣的化學反應(yīng),而蛋白質(zhì)發(fā)揮了關(guān)鍵作用。

蛋白質(zhì)通常由20種氨基酸構(gòu)成,理論上,這些氨基酸可以以無限多種方式組合。以存儲在DNA中的信息作為藍圖,這些氨基酸在我們的細胞中被連接在一起形成長鏈。

接下來,蛋白質(zhì)的奇妙之處就體現(xiàn)出來了:氨基酸鏈會扭曲并折疊成一個獨特的,有時甚至是獨一無二的三維結(jié)構(gòu),正是這種結(jié)構(gòu)賦予了蛋白質(zhì)的生物功能。

蛋白質(zhì)可由十幾個到幾千個氨基酸組成,氨基酸鏈會折疊成特定的三維結(jié)構(gòu),而這種結(jié)構(gòu)決定了蛋白質(zhì)的功能

有些蛋白質(zhì)成為生命體的基本單元,可以構(gòu)建肌肉、角或羽毛,而其他的則可能成為激素或抗體。

其中許多蛋白質(zhì)會形成酶,以驚人的精確度驅(qū)動生命的各種化學反應(yīng)。位于細胞表面的蛋白質(zhì)同樣重要,它們充當細胞與其周圍環(huán)境之間的信號傳遞通道。

蛋白質(zhì)的首批圖像

自19世紀以來,化學家們就知道蛋白質(zhì)對生命過程至關(guān)重要,但直到20世紀50年代,化學工具才足夠精確,研究人員才能開始更詳細地探索蛋白質(zhì)。

劍橋研究人員John Kendrew和Max Perutz在50年代末取得了突破性發(fā)現(xiàn),他們成功使用一種叫做X射線晶體學(X-ray crystallography)的方法首次呈現(xiàn)出蛋白質(zhì)的三維模型。

因為這一發(fā)現(xiàn),他們于1962年獲得了諾貝爾化學獎。

此后,研究人員主要使用X射線晶體成像技術(shù),加上付出了大量努力,成功繪制出約20萬種不同蛋白質(zhì)的圖像,才為今年的諾貝爾化學獎奠定了基礎(chǔ)。

蛋白質(zhì)折疊之謎:一個50年的挑戰(zhàn)

美國科學家Christian Anfinsen做出了另一項早期重要發(fā)現(xiàn)。

通過各種化學技巧,他成功地使一個現(xiàn)有蛋白質(zhì)展開,然后再次折疊起來。有趣的是,蛋白質(zhì)每次都呈現(xiàn)出完全相同的形狀。

1961年,他得出結(jié)論,蛋白質(zhì)的三維結(jié)構(gòu)完全由氨基酸序列決定,這項發(fā)現(xiàn)使他在1972年獲得了諾貝爾化學獎。

然而,Anfinsen的邏輯中包含一個悖論,另一位美國科學家Cyrus Levinthal在1969年指出了這一點。

Levinthal計算出,即使一個蛋白質(zhì)只由100個氨基酸組成,理論上該蛋白質(zhì)也可以呈現(xiàn)出至少10^47種不同的三維結(jié)構(gòu)。

如果氨基酸鏈是隨機折疊的,那么找到正確的蛋白質(zhì)結(jié)構(gòu)所需的時間將比宇宙的年齡還要長。然而在細胞中,這個過程只需要幾毫秒。那么,氨基酸鏈究竟是如何折疊的?

Anfinsen的發(fā)現(xiàn)和Levinthal的質(zhì)疑共同指向了一個事實:氨基酸折疊是一個預(yù)定的過程。更重要的是,關(guān)于蛋白質(zhì)如何折疊的所有信息都必須存在于氨基酸序列中。

生物化學領(lǐng)域新圣杯

上述見解導(dǎo)致了另一個決定性的認識——如果化學家得知了蛋白質(zhì)的氨基酸序列,他們就應(yīng)該能夠預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。

這是一個令人興奮的想法。如果成功,他們將不再需要使用復(fù)雜的X射線晶體學技術(shù),并且可以大大節(jié)省時間;此外,還能夠為所有X射線晶體學不適用的蛋白質(zhì)生成結(jié)構(gòu)。

這些邏輯和結(jié)論引出了生物化學領(lǐng)域的新圣杯:預(yù)測問題。

為了促進該領(lǐng)域的快速發(fā)展,1994年研究人員啟動了一個名為「蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估」(CASP)的項目,之后發(fā)展成為一項競賽,每兩年舉辦一次。

在CASP競賽中,來自世界各地的研究人員都可以拿到剛剛一批蛋白質(zhì)的氨基酸序列。這些蛋白質(zhì)的結(jié)構(gòu)剛剛被測定出來,但對參賽者嚴格保密。他們需要根據(jù)已知的氨基酸序列來預(yù)測蛋白質(zhì)結(jié)構(gòu)。

CASP吸引了許多研究人員,但事實證明,蛋白質(zhì)結(jié)構(gòu)預(yù)測是相當困難的,多年來進展十分緩慢,預(yù)測結(jié)構(gòu)和真實結(jié)構(gòu)之間的異質(zhì)性幾乎沒有任何改善。

直到2018年,突破才終于出現(xiàn),一位集國際象棋大師、神經(jīng)科學專家和人工智能先驅(qū)于一身的人物進入了這個領(lǐng)域,為這個長期存在的難題帶來了全新的視角。

這個人,就是DeepMind聯(lián)合創(chuàng)始人Demis Hassabis。

AlphaGo大師挑戰(zhàn)蛋白質(zhì)奧林匹克

Demis Hassabis無愧于當今AI深度學習的一大元老了。

他從4歲開始下國際象棋,13歲就達到了大師水平。在青少年時期,他便開始了程序員和游戲開發(fā)者的職業(yè)生涯。

隨后,Hassabis開始探索AI,并涉足神經(jīng)科學,做出了幾項革命性的發(fā)現(xiàn)。

他堅定地認為,人工智能神經(jīng)網(wǎng)絡(luò)與人腦密不可分。因此,他決定利用自己所學的大腦知識,來開發(fā)AI神經(jīng)網(wǎng)絡(luò)。

2010年,Hassabis與兒時的好友Mustafa Suleyman、以及研究同僚Shane Legg共同在英國創(chuàng)立了DeepMind。

當時,他們創(chuàng)造了一個以類人方式學習玩棋盤游戲AI神經(jīng)網(wǎng)絡(luò),一舉成名。

這個神經(jīng)網(wǎng)絡(luò)可以接入一個外部的存儲器,就像一個傳統(tǒng)的圖靈機一樣,使得一臺電腦可以模擬人類的短期記憶。

2014年,DeepMind被谷歌正式收購。

就在同年,Hassabis帶領(lǐng)團隊拿下了被許多人視為AI領(lǐng)域的圣杯。

他們開發(fā)出的AlphaGo算法擊敗了世界圍棋冠軍。最為人熟知的是,2016年AlphaGo在與著名棋手李世石交手中,拔得頭籌。

隨之,進化版的AlphaGo再次戰(zhàn)勝了人類選手。

然而,對Hassabis來說,圍棋并不是終極目標,而是開發(fā)出更好的AI的手段。

在這場勝利之后,他們準備去迎接對人類更為重要的挑戰(zhàn)——

因此,在2018年,Hassabis和團隊報名參加了第十三屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估(CASP)競賽。

Hassabis的AI模型意外獲勝

過去幾年里,CASP參賽的研究者在蛋白結(jié)構(gòu)預(yù)測上,最多能實現(xiàn)40%的準確率。

Hassabis團隊拿著AlphaFold去參賽后,竟達到了60%準確率。

因此,在CASP競賽首次亮相的AlphaFold,拿下了2018年的冠軍。

初代AlphaFold為43個建模領(lǐng)域中的24個創(chuàng)建了高精度結(jié)構(gòu)。這一結(jié)果,足以讓許多人為之震驚。

但對于他們來說,AlphaFold的潛力還遠遠沒有被開發(fā)。

若要真正取得成功,蛋白質(zhì)預(yù)測結(jié)構(gòu)必須達到90%準確率。

由此,Hassabis和團隊一起繼續(xù)埋頭深耕。

但是,無論他們?nèi)绾闻,都無法突破技術(shù)瓶頸。

彼時的團隊成員,早已疲憊不堪。

驚喜的是,一位剛剛?cè)肼毜膯T工John Jumper提出了對AlphaFold改進的突破性想法。

John Jumper:迎接生物化學的「重大挑戰(zhàn)」

作為AlphaFold的第一作者,DeepMind的高級研究科學家John Jumper曾在2021年被評為Nature年度十大人物。

曾經(jīng),對宇宙的著迷促使他開始學習物理學和數(shù)學。

但2008年,當他開始在一家利用超算模擬蛋白質(zhì)及其動力學的公司工作時,開始意識到物理學知識可以幫助解決醫(yī)學問題。

2011年,攻讀理論物理學博士學位時,為了節(jié)省算力,他開始開發(fā)更簡單、巧妙的方法,來模擬蛋白質(zhì)動力學。

2017年,他完成了博士學位,聽說谷歌DeepMind在秘密開發(fā)預(yù)測蛋白質(zhì)的技術(shù)后,他發(fā)送了求職申請。

因為在蛋白質(zhì)模擬方面的經(jīng)驗,他對如何改進AlphaFold有著創(chuàng)新性的想法,所以在團隊遇到瓶頸后,他獲得了晉升。

隨后,他和Hassabis共同領(lǐng)導(dǎo)了開發(fā)AlphaFold 2的工作。

革新后的AI模型取得驚人結(jié)果

新版本的AlphaFold2,融入了Jumper對蛋白質(zhì)的深入認知。

團隊還開始使用Transformer,因而比以前更靈活地在海量數(shù)據(jù)中找到模式,有效地確定為了特定目標應(yīng)該關(guān)注什么。

訓練AlphaFold 2時,他們用了所有已知蛋白質(zhì)結(jié)構(gòu)和氨基酸序列數(shù)據(jù)庫中的大量信息,而AlphaFold 2在第十四屆CASP競賽中表現(xiàn)優(yōu)異。

當CASP的組織者在2020年評估結(jié)果時,他們意識到:生物化學50年來的挑戰(zhàn)已經(jīng)結(jié)束。

在大多數(shù)情況下,AlphaFold2的表現(xiàn)幾乎與X射線晶體學一樣好,這實在令人驚嘆。

AlphaFold2的工作原理

一本關(guān)于細胞的教科書改變了David Baker的人生軌跡

David Baker最初進入哈佛大學時,選擇了哲學和社會科學。

然而,在一門進化生物學課程中,他偶然接觸到了經(jīng)典教科書《Molecular Biology of the Cell》的第一版。正是

這本書,徹底改變了他的人生方向。

自此,他開始探索細胞生物學,最終對蛋白質(zhì)結(jié)構(gòu)產(chǎn)生了濃厚興趣。

1993年,Baker進入華盛頓大學擔任研究組長,開始直面生物化學領(lǐng)域的這個「重大挑戰(zhàn)」。

通過一系列巧妙的實驗,他開始探索蛋白質(zhì)如何折疊。90年代末,他試著開發(fā)一款能預(yù)測蛋白質(zhì)結(jié)構(gòu)的軟件,由此Rosetta誕生。

在1998年,Bake使用Rosetta首次參加CASP競賽,表現(xiàn)異常出色。

這也啟發(fā)了他的創(chuàng)新性想法:反向使用這個軟件。

如果能輸入所需的蛋白質(zhì)結(jié)構(gòu),獲得氨基酸序列的建議,就能創(chuàng)造全新的蛋白質(zhì),而非僅僅將氨基酸序列輸入Rosetta,得到蛋白質(zhì)結(jié)構(gòu)。

Baker:從頭設(shè)計蛋白質(zhì)的先驅(qū)

20世紀90年代末,蛋白質(zhì)設(shè)計領(lǐng)域開始蓬勃發(fā)展。

在許多情況下,研究人員對現(xiàn)有蛋白質(zhì)進行定向改造,使它們能夠執(zhí)行新的功能,比如降解環(huán)境污染物或在化學制造業(yè)中充當催化劑。

然而,天然蛋白質(zhì)的功能范圍畢竟是有限的。為了突破這一局限性,增加蛋白質(zhì)的潛力,Baker的研究小組提出了一個大膽的想法:從頭設(shè)計全新的蛋白質(zhì)。

這種想法從何而來?Baker曾經(jīng)有一個形象的比喻:

「如果你想造一架飛機,你不會從改造一只鳥開始;相反,你會深入理解空氣動力學的基本原理,然后基于這些原理構(gòu)建全新的飛行器!

Baker的這種從零開始的蛋白質(zhì)設(shè)計方法,開創(chuàng)了蛋白質(zhì)工程領(lǐng)域的新紀元,為未來的生物技術(shù)和醫(yī)學應(yīng)用提供了無限可能。

獨特蛋白質(zhì)的誕生:從頭設(shè)計的突破

構(gòu)建全新蛋白質(zhì),被稱為「從頭設(shè)計」(de novo design)。

Baker團隊首先繪制了一種全新結(jié)構(gòu)的蛋白質(zhì),然后利用名為Rosetta的軟件計算出能夠產(chǎn)生所需蛋白質(zhì)的氨基酸序列。

Rosetta先搜索數(shù)據(jù)庫中所有已知的蛋白質(zhì)結(jié)構(gòu),尋找與目標結(jié)構(gòu)相似的短蛋白質(zhì)片段;隨后,軟件利用蛋白質(zhì)能量圖的基本知識,優(yōu)化這些片段,并提出了最終的氨基酸序列。

為了驗證軟件的效果,Baker的研究小組將設(shè)計的氨基酸序列對應(yīng)的基因引入到細菌中,使其產(chǎn)生目標蛋白質(zhì)。隨后,他們使用X射線晶體學技術(shù)確定了蛋白質(zhì)的實際結(jié)構(gòu)。

結(jié)果令人振奮:Rosetta確實成功構(gòu)建了預(yù)期的蛋白質(zhì)。這個觀察到的名為Top7的蛋白質(zhì)結(jié)構(gòu)幾乎完全符合他們的設(shè)計,標志著蛋白質(zhì)工程領(lǐng)域的重大突破。

Top7——第一個與所有已知現(xiàn)有蛋白質(zhì)完全不同的蛋白質(zhì)

Baker實驗室的驚人創(chuàng)造

對于蛋白質(zhì)設(shè)計領(lǐng)域的研究人員來說,Top7的出現(xiàn)無疑是一個里程碑。

此前,從頭設(shè)計蛋白質(zhì)的嘗試僅限于模仿自然界已存在的結(jié)構(gòu)。而Top7的獨特結(jié)構(gòu)在自然界中前所未見。

更令人驚嘆的是,它由93個氨基酸組成,比之前使用從頭設(shè)計方法生產(chǎn)的任何蛋白質(zhì)都要大得多,這相當于在分子尺度上構(gòu)建了一個微型的「蛋白質(zhì)大廈」。

Baker于2003年發(fā)表了這一開創(chuàng)性發(fā)現(xiàn),并慷慨地公開了Rosetta的源代碼,這一舉動極大地推動了全球研究社區(qū)對該軟件的持續(xù)開發(fā)和創(chuàng)新應(yīng)用,為蛋白質(zhì)設(shè)計領(lǐng)域注入了新的活力。

隨著這些突破性成果的涌現(xiàn),2024年諾貝爾化學獎的輪廓已經(jīng)初現(xiàn)。

曾經(jīng)需要數(shù)年的工作現(xiàn)在只需幾分鐘

當Demis Hassabis和John Jumper確認AI蛋白質(zhì)結(jié)構(gòu)預(yù)測工具AlphaFold2真的有效時,便開始了所有人類蛋白質(zhì)結(jié)構(gòu)的計算。

隨后,他們預(yù)測了研究人員在探索地球生物多樣性過程中,發(fā)現(xiàn)的幾乎所有2億種蛋白質(zhì)的結(jié)構(gòu)。

不僅如此,谷歌DeepMind還公開了AlphaFold2的代碼,任何人都可以訪問。

如今,這個AI模型已成為研究人員的寶貴資源。截至2024年10月,已有來自190個國家的超過200萬名用戶使用了AlphaFold2。

以前,獲得一個蛋白質(zhì)結(jié)構(gòu)通常需要數(shù)年時間,而且并不總是能成功。現(xiàn)在只需幾分鐘就能完成。

雖然這個AI模型并非完美,但它能估計所產(chǎn)生結(jié)構(gòu)的正確性,因此研究人員能夠了解預(yù)測結(jié)果的可靠程度。

利用AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)

在2020年CASP競賽之后,David Baker意識到了基于Transformer的AI模型的潛力。

隨后,他便將其添加到Rosetta軟件中,從而促進了蛋白質(zhì)設(shè)計的發(fā)展。

近年來,一個又一個令人驚嘆的人工設(shè)計蛋白質(zhì)從Baker的實驗室涌現(xiàn)。

利用Rosetta軟件設(shè)計的人工蛋白質(zhì)

AI的影響力,已經(jīng)滲透進了諾貝爾獎的各個領(lǐng)域,不知接下來是否還會有驚喜。

本文來源:新智元

網(wǎng)友評論

聚超值•精選

推薦 手機 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部