太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

AI再問鼎諾貝爾化學獎！48歲DeepMind創(chuàng)始人因蛋白質(zhì)結(jié)構(gòu)預(yù)測摘桂冠

新智元整合編輯：太平洋科技發(fā)布于：2024-10-10 16:20

10月9日，2024諾貝爾化學獎揭曉。

今年的獎項，一半授予美國華盛頓大學的David Baker，以表彰其在計算蛋白質(zhì)設(shè)計方面的貢獻。

另一半則授予DeppMind的Demis Hassabis和John M. Jumper，以表彰其在蛋白質(zhì)結(jié)構(gòu)預(yù)測方面的貢獻。

他們?nèi)欢贾铝τ贏I蛋白質(zhì)的研究。

沒錯，萬物皆可AI，今年的諾獎是妥妥的AI年

根據(jù)委員會的官方公告，今年的諾貝爾化學獎聚焦蛋白質(zhì)。

David Baker成功完成了幾乎不可能的驚人成就：構(gòu)建全新種類的蛋白質(zhì)。

而Demis Hassabis和John Jumper則在2020年開發(fā)了AlphaFold 2，解決了人類50年來的夢想：預(yù)測蛋白質(zhì)的復(fù)雜結(jié)構(gòu)。

我們現(xiàn)在能夠預(yù)測蛋白質(zhì)結(jié)構(gòu)并設(shè)計自己的蛋白質(zhì)，這一突破為人類帶來了巨大的益處，開啟了無限可能。

沒想到，我們曾經(jīng)的預(yù)言成真了。

拉斯克大獎再次證明了自己「獲獎風向標」的地位。

Hassabis也度過了傳奇的一天：白天祝福好朋友得諾獎，晚上自己親自得諾獎。

紐約大學助理教授謝賽寧回憶稱，在DeepMind實習期間，Hassabis被問及公司目標時，便提到了獲得多個諾貝爾獎。

而如今，這個使命已經(jīng)實現(xiàn)了一部分。

Demis Hassabis

Demis Hassabis 1976年出生于英國。

4歲起，他就是國際象棋神通，在13歲時達到了大師標準。

1997年，他以雙第一的成績畢業(yè)于劍橋大學，在倫敦大學學院完成了認知神經(jīng)科學博士學位，又在MIT和哈佛攻讀博士后。

2010年，他和Shane Legg共同創(chuàng)辦DeepMind，擔任CEO。

2023年，DeepMind和谷歌大腦合并后，Hassabis擔任谷歌DeepMind團隊CEO。

關(guān)于DeepMind的誕生還有一段傳奇故事：作為14歲以下世界上排名第二的象棋選手，Hassabis在一次聚會上成功征服了Peter Thiel，獲得了225萬美元風投，成立了DeepMind。

John M. Jumper

John Jumper是DeepMind的美國高級研究科學家。

2017年，他在芝加哥大學獲得博士學位。

作為一作，他和同事共同創(chuàng)建了AlphaFold。

2021年，他被Nature列為年度榜單十大「重要人物」之一。

David Baker

David Baker 1962年出生于華盛頓州西雅圖。

1984年獲得哈佛學士學位，1989年獲得UC伯克利生物化學博士學位。

他是蛋白質(zhì)設(shè)計領(lǐng)域的「鼻祖級」人物，設(shè)計出了比AlphaFold更早的蛋白質(zhì)結(jié)構(gòu)設(shè)計算法RoseTTAFold，時間上比DeepMind更早。

作為美國國家科學院院士、華盛頓大學蛋白質(zhì)設(shè)計研究所所長，他聯(lián)合創(chuàng)辦了十幾家生物技術(shù)公司，并入選《時代》 2024年首屆100名最具影響力的健康人物名單。

他們通過計算和AI揭示了蛋白質(zhì)的秘密

支撐生命體各種活動的，是體內(nèi)旺盛且多樣的化學反應(yīng)，而蛋白質(zhì)發(fā)揮了關(guān)鍵作用。

蛋白質(zhì)通常由20種氨基酸構(gòu)成，理論上，這些氨基酸可以以無限多種方式組合。以存儲在DNA中的信息作為藍圖，這些氨基酸在我們的細胞中被連接在一起形成長鏈。

接下來，蛋白質(zhì)的奇妙之處就體現(xiàn)出來了：氨基酸鏈會扭曲并折疊成一個獨特的，有時甚至是獨一無二的三維結(jié)構(gòu)，正是這種結(jié)構(gòu)賦予了蛋白質(zhì)的生物功能。

蛋白質(zhì)可由十幾個到幾千個氨基酸組成，氨基酸鏈會折疊成特定的三維結(jié)構(gòu)，而這種結(jié)構(gòu)決定了蛋白質(zhì)的功能

有些蛋白質(zhì)成為生命體的基本單元，可以構(gòu)建肌肉、角或羽毛，而其他的則可能成為激素或抗體。

其中許多蛋白質(zhì)會形成酶，以驚人的精確度驅(qū)動生命的各種化學反應(yīng)。位于細胞表面的蛋白質(zhì)同樣重要，它們充當細胞與其周圍環(huán)境之間的信號傳遞通道。

蛋白質(zhì)的首批圖像

自19世紀以來，化學家們就知道蛋白質(zhì)對生命過程至關(guān)重要，但直到20世紀50年代，化學工具才足夠精確，研究人員才能開始更詳細地探索蛋白質(zhì)。

劍橋研究人員John Kendrew和Max Perutz在50年代末取得了突破性發(fā)現(xiàn)，他們成功使用一種叫做X射線晶體學（X-ray crystallography）的方法首次呈現(xiàn)出蛋白質(zhì)的三維模型。

因為這一發(fā)現(xiàn)，他們于1962年獲得了諾貝爾化學獎。

此后，研究人員主要使用X射線晶體成像技術(shù)，加上付出了大量努力，成功繪制出約20萬種不同蛋白質(zhì)的圖像，才為今年的諾貝爾化學獎奠定了基礎(chǔ)。

蛋白質(zhì)折疊之謎：一個50年的挑戰(zhàn)

美國科學家Christian Anfinsen做出了另一項早期重要發(fā)現(xiàn)。

通過各種化學技巧，他成功地使一個現(xiàn)有蛋白質(zhì)展開，然后再次折疊起來。有趣的是，蛋白質(zhì)每次都呈現(xiàn)出完全相同的形狀。

1961年，他得出結(jié)論，蛋白質(zhì)的三維結(jié)構(gòu)完全由氨基酸序列決定，這項發(fā)現(xiàn)使他在1972年獲得了諾貝爾化學獎。

然而，Anfinsen的邏輯中包含一個悖論，另一位美國科學家Cyrus Levinthal在1969年指出了這一點。

Levinthal計算出，即使一個蛋白質(zhì)只由100個氨基酸組成，理論上該蛋白質(zhì)也可以呈現(xiàn)出至少10^47種不同的三維結(jié)構(gòu)。

如果氨基酸鏈是隨機折疊的，那么找到正確的蛋白質(zhì)結(jié)構(gòu)所需的時間將比宇宙的年齡還要長。然而在細胞中，這個過程只需要幾毫秒。那么，氨基酸鏈究竟是如何折疊的？

Anfinsen的發(fā)現(xiàn)和Levinthal的質(zhì)疑共同指向了一個事實：氨基酸折疊是一個預(yù)定的過程。更重要的是，關(guān)于蛋白質(zhì)如何折疊的所有信息都必須存在于氨基酸序列中。

生物化學領(lǐng)域新圣杯

上述見解導(dǎo)致了另一個決定性的認識——如果化學家得知了蛋白質(zhì)的氨基酸序列，他們就應(yīng)該能夠預(yù)測蛋白質(zhì)的三維結(jié)構(gòu)。

這是一個令人興奮的想法。如果成功，他們將不再需要使用復(fù)雜的X射線晶體學技術(shù)，并且可以大大節(jié)省時間；此外，還能夠為所有X射線晶體學不適用的蛋白質(zhì)生成結(jié)構(gòu)。

這些邏輯和結(jié)論引出了生物化學領(lǐng)域的新圣杯：預(yù)測問題。

為了促進該領(lǐng)域的快速發(fā)展，1994年研究人員啟動了一個名為「蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估」（CASP）的項目，之后發(fā)展成為一項競賽，每兩年舉辦一次。

在CASP競賽中，來自世界各地的研究人員都可以拿到剛剛一批蛋白質(zhì)的氨基酸序列。這些蛋白質(zhì)的結(jié)構(gòu)剛剛被測定出來，但對參賽者嚴格保密。他們需要根據(jù)已知的氨基酸序列來預(yù)測蛋白質(zhì)結(jié)構(gòu)。

CASP吸引了許多研究人員，但事實證明，蛋白質(zhì)結(jié)構(gòu)預(yù)測是相當困難的，多年來進展十分緩慢，預(yù)測結(jié)構(gòu)和真實結(jié)構(gòu)之間的異質(zhì)性幾乎沒有任何改善。

直到2018年，突破才終于出現(xiàn)，一位集國際象棋大師、神經(jīng)科學專家和人工智能先驅(qū)于一身的人物進入了這個領(lǐng)域，為這個長期存在的難題帶來了全新的視角。

這個人，就是DeepMind聯(lián)合創(chuàng)始人Demis Hassabis。

AlphaGo大師挑戰(zhàn)蛋白質(zhì)奧林匹克

Demis Hassabis無愧于當今AI深度學習的一大元老了。

他從4歲開始下國際象棋，13歲就達到了大師水平。在青少年時期，他便開始了程序員和游戲開發(fā)者的職業(yè)生涯。

隨后，Hassabis開始探索AI，并涉足神經(jīng)科學，做出了幾項革命性的發(fā)現(xiàn)。

他堅定地認為，人工智能神經(jīng)網(wǎng)絡(luò)與人腦密不可分。因此，他決定利用自己所學的大腦知識，來開發(fā)AI神經(jīng)網(wǎng)絡(luò)。

2010年，Hassabis與兒時的好友Mustafa Suleyman、以及研究同僚Shane Legg共同在英國創(chuàng)立了DeepMind。

當時，他們創(chuàng)造了一個以類人方式學習玩棋盤游戲AI神經(jīng)網(wǎng)絡(luò)，一舉成名。

這個神經(jīng)網(wǎng)絡(luò)可以接入一個外部的存儲器，就像一個傳統(tǒng)的圖靈機一樣，使得一臺電腦可以模擬人類的短期記憶。

2014年，DeepMind被谷歌正式收購。

就在同年，Hassabis帶領(lǐng)團隊拿下了被許多人視為AI領(lǐng)域的圣杯。

他們開發(fā)出的AlphaGo算法擊敗了世界圍棋冠軍。最為人熟知的是，2016年AlphaGo在與著名棋手李世石交手中，拔得頭籌。

隨之，進化版的AlphaGo再次戰(zhàn)勝了人類選手。

然而，對Hassabis來說，圍棋并不是終極目標，而是開發(fā)出更好的AI的手段。

在這場勝利之后，他們準備去迎接對人類更為重要的挑戰(zhàn)——

因此，在2018年，Hassabis和團隊報名參加了第十三屆蛋白質(zhì)結(jié)構(gòu)預(yù)測關(guān)鍵評估（CASP）競賽。

Hassabis的AI模型意外獲勝

過去幾年里，CASP參賽的研究者在蛋白結(jié)構(gòu)預(yù)測上，最多能實現(xiàn)40%的準確率。

Hassabis團隊拿著AlphaFold去參賽后，竟達到了60%準確率。

因此，在CASP競賽首次亮相的AlphaFold，拿下了2018年的冠軍。

初代AlphaFold為43個建模領(lǐng)域中的24個創(chuàng)建了高精度結(jié)構(gòu)。這一結(jié)果，足以讓許多人為之震驚。

但對于他們來說，AlphaFold的潛力還遠遠沒有被開發(fā)。

若要真正取得成功，蛋白質(zhì)預(yù)測結(jié)構(gòu)必須達到90%準確率。

由此，Hassabis和團隊一起繼續(xù)埋頭深耕。

但是，無論他們?nèi)绾闻�，都無法突破技術(shù)瓶頸。

彼時的團隊成員，早已疲憊不堪。

驚喜的是，一位剛剛?cè)肼毜膯T工John Jumper提出了對AlphaFold改進的突破性想法。

John Jumper：迎接生物化學的「重大挑戰(zhàn)」

作為AlphaFold的第一作者，DeepMind的高級研究科學家John Jumper曾在2021年被評為Nature年度十大人物。

曾經(jīng)，對宇宙的著迷促使他開始學習物理學和數(shù)學。

但2008年，當他開始在一家利用超算模擬蛋白質(zhì)及其動力學的公司工作時，開始意識到物理學知識可以幫助解決醫(yī)學問題。

2011年，攻讀理論物理學博士學位時，為了節(jié)省算力，他開始開發(fā)更簡單、巧妙的方法，來模擬蛋白質(zhì)動力學。

2017年，他完成了博士學位，聽說谷歌DeepMind在秘密開發(fā)預(yù)測蛋白質(zhì)的技術(shù)后，他發(fā)送了求職申請。

因為在蛋白質(zhì)模擬方面的經(jīng)驗，他對如何改進AlphaFold有著創(chuàng)新性的想法，所以在團隊遇到瓶頸后，他獲得了晉升。

隨后，他和Hassabis共同領(lǐng)導(dǎo)了開發(fā)AlphaFold 2的工作。

革新后的AI模型取得驚人結(jié)果

新版本的AlphaFold2，融入了Jumper對蛋白質(zhì)的深入認知。

團隊還開始使用Transformer，因而比以前更靈活地在海量數(shù)據(jù)中找到模式，有效地確定為了特定目標應(yīng)該關(guān)注什么。

訓練AlphaFold 2時，他們用了所有已知蛋白質(zhì)結(jié)構(gòu)和氨基酸序列數(shù)據(jù)庫中的大量信息，而AlphaFold 2在第十四屆CASP競賽中表現(xiàn)優(yōu)異。

當CASP的組織者在2020年評估結(jié)果時，他們意識到：生物化學50年來的挑戰(zhàn)已經(jīng)結(jié)束。

在大多數(shù)情況下，AlphaFold2的表現(xiàn)幾乎與X射線晶體學一樣好，這實在令人驚嘆。

AlphaFold2的工作原理

一本關(guān)于細胞的教科書改變了David Baker的人生軌跡

David Baker最初進入哈佛大學時，選擇了哲學和社會科學。

然而，在一門進化生物學課程中，他偶然接觸到了經(jīng)典教科書《Molecular Biology of the Cell》的第一版。正是

這本書，徹底改變了他的人生方向。

自此，他開始探索細胞生物學，最終對蛋白質(zhì)結(jié)構(gòu)產(chǎn)生了濃厚興趣。

1993年，Baker進入華盛頓大學擔任研究組長，開始直面生物化學領(lǐng)域的這個「重大挑戰(zhàn)」。

通過一系列巧妙的實驗，他開始探索蛋白質(zhì)如何折疊。90年代末，他試著開發(fā)一款能預(yù)測蛋白質(zhì)結(jié)構(gòu)的軟件，由此Rosetta誕生。

在1998年，Bake使用Rosetta首次參加CASP競賽，表現(xiàn)異常出色。

這也啟發(fā)了他的創(chuàng)新性想法：反向使用這個軟件。

如果能輸入所需的蛋白質(zhì)結(jié)構(gòu)，獲得氨基酸序列的建議，就能創(chuàng)造全新的蛋白質(zhì)，而非僅僅將氨基酸序列輸入Rosetta，得到蛋白質(zhì)結(jié)構(gòu)。

Baker：從頭設(shè)計蛋白質(zhì)的先驅(qū)

20世紀90年代末，蛋白質(zhì)設(shè)計領(lǐng)域開始蓬勃發(fā)展。

在許多情況下，研究人員對現(xiàn)有蛋白質(zhì)進行定向改造，使它們能夠執(zhí)行新的功能，比如降解環(huán)境污染物或在化學制造業(yè)中充當催化劑。

然而，天然蛋白質(zhì)的功能范圍畢竟是有限的。為了突破這一局限性，增加蛋白質(zhì)的潛力，Baker的研究小組提出了一個大膽的想法：從頭設(shè)計全新的蛋白質(zhì)。

這種想法從何而來？Baker曾經(jīng)有一個形象的比喻：

「如果你想造一架飛機，你不會從改造一只鳥開始；相反，你會深入理解空氣動力學的基本原理，然后基于這些原理構(gòu)建全新的飛行器�！�

Baker的這種從零開始的蛋白質(zhì)設(shè)計方法，開創(chuàng)了蛋白質(zhì)工程領(lǐng)域的新紀元，為未來的生物技術(shù)和醫(yī)學應(yīng)用提供了無限可能。

獨特蛋白質(zhì)的誕生：從頭設(shè)計的突破

構(gòu)建全新蛋白質(zhì)，被稱為「從頭設(shè)計」（de novo design）。

Baker團隊首先繪制了一種全新結(jié)構(gòu)的蛋白質(zhì)，然后利用名為Rosetta的軟件計算出能夠產(chǎn)生所需蛋白質(zhì)的氨基酸序列。

Rosetta先搜索數(shù)據(jù)庫中所有已知的蛋白質(zhì)結(jié)構(gòu)，尋找與目標結(jié)構(gòu)相似的短蛋白質(zhì)片段；隨后，軟件利用蛋白質(zhì)能量圖的基本知識，優(yōu)化這些片段，并提出了最終的氨基酸序列。

為了驗證軟件的效果，Baker的研究小組將設(shè)計的氨基酸序列對應(yīng)的基因引入到細菌中，使其產(chǎn)生目標蛋白質(zhì)。隨后，他們使用X射線晶體學技術(shù)確定了蛋白質(zhì)的實際結(jié)構(gòu)。

結(jié)果令人振奮：Rosetta確實成功構(gòu)建了預(yù)期的蛋白質(zhì)。這個觀察到的名為Top7的蛋白質(zhì)結(jié)構(gòu)幾乎完全符合他們的設(shè)計，標志著蛋白質(zhì)工程領(lǐng)域的重大突破。

Top7——第一個與所有已知現(xiàn)有蛋白質(zhì)完全不同的蛋白質(zhì)

Baker實驗室的驚人創(chuàng)造

對于蛋白質(zhì)設(shè)計領(lǐng)域的研究人員來說，Top7的出現(xiàn)無疑是一個里程碑。

此前，從頭設(shè)計蛋白質(zhì)的嘗試僅限于模仿自然界已存在的結(jié)構(gòu)。而Top7的獨特結(jié)構(gòu)在自然界中前所未見。

更令人驚嘆的是，它由93個氨基酸組成，比之前使用從頭設(shè)計方法生產(chǎn)的任何蛋白質(zhì)都要大得多，這相當于在分子尺度上構(gòu)建了一個微型的「蛋白質(zhì)大廈」。

Baker于2003年發(fā)表了這一開創(chuàng)性發(fā)現(xiàn)，并慷慨地公開了Rosetta的源代碼，這一舉動極大地推動了全球研究社區(qū)對該軟件的持續(xù)開發(fā)和創(chuàng)新應(yīng)用，為蛋白質(zhì)設(shè)計領(lǐng)域注入了新的活力。

隨著這些突破性成果的涌現(xiàn)，2024年諾貝爾化學獎的輪廓已經(jīng)初現(xiàn)。

曾經(jīng)需要數(shù)年的工作現(xiàn)在只需幾分鐘

當Demis Hassabis和John Jumper確認AI蛋白質(zhì)結(jié)構(gòu)預(yù)測工具AlphaFold2真的有效時，便開始了所有人類蛋白質(zhì)結(jié)構(gòu)的計算。

隨后，他們預(yù)測了研究人員在探索地球生物多樣性過程中，發(fā)現(xiàn)的幾乎所有2億種蛋白質(zhì)的結(jié)構(gòu)。

不僅如此，谷歌DeepMind還公開了AlphaFold2的代碼，任何人都可以訪問。

如今，這個AI模型已成為研究人員的寶貴資源。截至2024年10月，已有來自190個國家的超過200萬名用戶使用了AlphaFold2。

以前，獲得一個蛋白質(zhì)結(jié)構(gòu)通常需要數(shù)年時間，而且并不總是能成功。現(xiàn)在只需幾分鐘就能完成。

雖然這個AI模型并非完美，但它能估計所產(chǎn)生結(jié)構(gòu)的正確性，因此研究人員能夠了解預(yù)測結(jié)果的可靠程度。

利用AlphaFold2預(yù)測的蛋白質(zhì)結(jié)構(gòu)

在2020年CASP競賽之后，David Baker意識到了基于Transformer的AI模型的潛力。

隨后，他便將其添加到Rosetta軟件中，從而促進了蛋白質(zhì)設(shè)計的發(fā)展。

近年來，一個又一個令人驚嘆的人工設(shè)計蛋白質(zhì)從Baker的實驗室涌現(xiàn)。