太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

當(dāng)你以為AI發(fā)展放緩時，OpenAI推出o3，向AGI邁出關(guān)鍵一步

騰訊科技整合編輯：太平洋科技發(fā)布于：2024-12-25 11:48

OpenAI在其為期12天發(fā)布會活動的最后一天，正式發(fā)布了備受期待的o3系列模型，包括o3和o3-mini。

o3 是一個非常強(qiáng)大的模型，在編碼、數(shù)學(xué)以及 ARC-AGI 基準(zhǔn)測試等多個基準(zhǔn)上超過了 OpenAI 此前的 o1 模型（o1得分25%，o3得分87.5%)。

o3-mini 是 o3 更經(jīng)濟(jì)高效且性能導(dǎo)向的版本，在成本和延遲方面比 o1-mini 低得多，同時提供類似的功能。

由于與英國電信公司 O2 可能存在的版權(quán)/商標(biāo)沖突，所以將其命名為o3。

圖：OpenAI官方X

OpenAI 正向安全研究人員開放 o3 和 o3-mini 的早期訪問，預(yù)計 o3-mini 將于 1 月底左右發(fā)布，o3 則稍后。

測試概覽

SWE-Bench 測試：71.7%——o1得分48.9%

Codeforces 評分：2727——相當(dāng)于全球人類程序員編碼競賽中，排名第 175 位。

AIME：96.7%——意味著在數(shù)學(xué)測試中只錯1道題

博士水平的科學(xué)問題（GPQA）：87.7%——博士生一般得分70%

最難的前沿數(shù)學(xué)測試：25.2%——其他模型沒有超過2%，數(shù)學(xué)天才陶哲軒說該測試“可能難住AI好幾年”

ARC-AGI：87.5%——o1得分25%

驚人的測試分?jǐn)?shù)，

這回真的遠(yuǎn)超普通博士生

o3系列模型邁向AGI，基準(zhǔn)測試結(jié)果驚人

我們挑選最具代表性的測試給大家進(jìn)行簡要介紹，以此說明此次o3測試分?jǐn)?shù)的震撼程度。

（一）CodeForces測試

在全球頂尖的編程競賽平臺CodeForces上，o3系列模型展現(xiàn)了其卓越的編程能力。o3在CodeForces中的評分高達(dá)2727，超越了大部分人類程序員。

目前，只有不到200名頂級人類程序員能達(dá)到或超過這一評分。這一成績不僅證明了o3在編程任務(wù)上的強(qiáng)大實(shí)力，也顯示了其在解決復(fù)雜算法問題時接近甚至超越人類的潛力。

圖：Codeforces排名及對應(yīng)的分?jǐn)?shù)

（二）ARC-AGI測試

ARC-AGI（人工通用智能評估基準(zhǔn)）測試是由Keras之父Fran?ois Chollet發(fā)起，旨在評估AI系統(tǒng)在面對未見過的新任務(wù)時的適應(yīng)能力。ARC-AGI測試的核心在于其設(shè)計的任務(wù)往往需要深度邏輯推理和創(chuàng)新思維，這使得它成為評估AI系統(tǒng)通用智能能力的重要工具。

o3系列在這一測試中取得了顯著的成績，在高算力配置下，o3達(dá)到了87.5%的得分，而在低算力配置下也取得了75.7%的優(yōu)異成績。這一成績遠(yuǎn)超o1系列，后者在同一測試中的得分僅為25%。

Fran?ois Chollet對此評價道，“這是一個令人驚訝且重要的階躍式提升，展示了GPT系列模型前所未有的新型任務(wù)適應(yīng)能力。作為對比，ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%，歷時四年。隨著o3的出現(xiàn)，關(guān)于人工智能能力的所有既有認(rèn)知都需要重新評估。”

圖：Fran?ois Chollet的評價

雖然ARC-AGI測試中表現(xiàn)出色，但這并不意味著o3已達(dá)到了AGI水平，因?yàn)樗詴谝恍┓浅：唵蔚娜蝿?wù)中失敗，和人類智能有根本性的差別。

圖：Fran?ois Chollet的評價

（三）EpochAI Frontier Math測試

EpochAI Frontier Math測試被譽(yù)為當(dāng)今最具挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試之一，涵蓋了最新的前沿數(shù)學(xué)問題。著名數(shù)學(xué)家陶哲軒（Terence Tao）對此評價道：“這項(xiàng)測試可能會讓AI難住好幾年。”

然而，o3在這一測試中突破了以往的記錄，解決了25.2%的問題，而其他模型的得分均未超過2%。這一成績不僅證明了o3在數(shù)學(xué)推理方面的強(qiáng)大能力，也展示了其在處理高度復(fù)雜和抽象問題時的潛力。

Box公司的首席執(zhí)行官亞倫·列維（Aaron Levie）在X稱贊道：“OpenAI剛剛宣布了他們的新推理模型o3，它在基準(zhǔn)測試中的表現(xiàn)似乎異常出色，目前，人工智能的發(fā)展沒有任何放緩的跡象。”

圖：Aaron Levie的 X

谷歌登基幾天后，

OpenAI重回鐵王座

前幾天，谷歌憑借其新一代大模型Gemini 2.0和視頻生成模型Veo 2.0的發(fā)布，曾一度在AI的牌桌上大殺四方。然而，隨著OpenAI推出o3系列模型，這場博弈再度發(fā)生了戲劇性的逆轉(zhuǎn)。

（一）谷歌掀了AI圈的牌桌，全力狙擊OpenAI

在OpenAI的為期十二天的發(fā)布會進(jìn)行到第五天時，谷歌以迅雷不及掩耳之勢發(fā)布了其重磅產(chǎn)品——Gemini 2.0 Flash。這一版本不僅在速度上實(shí)現(xiàn)了翻倍提升，還在多模態(tài)輸出方面取得了突破性進(jìn)展，支持原生圖像生成和音頻輸出，進(jìn)一步拓展了AI模型的應(yīng)用邊界。Gemini 2.0不僅僅是一個升級版的語言模型，更是一個具備主動思考和多任務(wù)處理能力的統(tǒng)一底層模型。

谷歌CEO桑達(dá)爾·皮查伊在發(fā)布會上表示：“如果說Gemini 1.0是關(guān)于整理和理解信息，那么Gemini 2.0就是要讓這些信息真正變得有用。”

配合新推出的多模態(tài)實(shí)時API，Gemini 2.0能夠處理實(shí)時音頻和視頻流輸入，支持多種工具的組合使用，極大地增強(qiáng)了其在復(fù)雜任務(wù)中的適應(yīng)能力。

（二）你方唱罷我登場，OpenAI重回鐵王座

谷歌Deepmind的研究員在12月13號吐槽，OpenAI這回的發(fā)布并沒有截胡到他們，而OpenAI的研究人員在下面回復(fù)“好戲還在后面”。

自O(shè)penAI發(fā)布GPT4之后，其一直占據(jù)領(lǐng)先地位，但Google、Anthropic、Meta等競爭對手同樣咬的很緊。而今天，隨著OpenAI發(fā)布其o3系列模型，宣布著其在2024年AI軍備競賽中再度一騎絕塵，重回鐵王座。

正如OpenAI研究高級副總裁馬克·陳（Mark Chen）所言“這確實(shí)標(biāo)志著我們在實(shí)用性的前沿上攀登，”。“這個模型在編程方面非常出色，”奧特曼也補(bǔ)充說。

3個月前OpenAI發(fā)布o(jì)1，今天OpenAI發(fā)布o(jì)3，驗(yàn)證了AI進(jìn)步的趨勢勢不可擋。

圖：OpenAI研究人員的X

從ARC-AGI測試該測試的分?jǐn)?shù)來看，我們能夠很直觀的發(fā)現(xiàn)，AI的發(fā)展趨勢并沒有放緩，這或許是對今年不停出現(xiàn)的AI泡沫論最有力的回應(yīng)。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%

GPT-4o (2024): 5%

o1-preview (2024): 21%

o1 high (2024): 32%

o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John Hallman（OpenAI研究員，曾在Google Brain實(shí)習(xí)、普林斯頓大學(xué)數(shù)學(xué)系學(xué)生、 IMO 銀牌得主）說：

“當(dāng) Sam以及我們研究人員說 AGI 即將到來時，我們并不是為了賣你神奇的藥水、2000 美元的訂閱服務(wù)，或者誘使你在我們下一輪融資中投資。而是AGI時代真的要來了。”

然而這也意味著AI的安全性問題將不再是假設(shè)性的問題，一個會撒謊的高智商且能調(diào)動大量資源的AI如果沒有萬全的安全審核機(jī)制，那將造成什么樣的后果，我們不得而知......1年前OpenAI的首席科學(xué)家Ilya Sutskever和Sam Altman意見不合離開了OpenAI，當(dāng)時網(wǎng)友猜測Ilya看到了某種AGI的可能，但認(rèn)為其安全風(fēng)險極高，不宜推出。

前幾天Anthropic最新的論文表明，人工智能模型可以“假裝對齊”——在訓(xùn)練期間假裝遵循訓(xùn)練規(guī)則，但在部署時又恢復(fù)到原來的行為，馬斯克也對此有相應(yīng)的評價。

此前騰訊科技出了一篇文章闡述會撒謊的o1：

幾天過去o3到來了，或許與AI的智能性相比，安全性問題如今應(yīng)變成最高優(yōu)先的問題。

當(dāng)前，OpenAI已向安全研究人員和合作伙伴開放了測試申請，旨在通過更多實(shí)際應(yīng)用測試，進(jìn)一步提升模型的安全性和可靠性。

圖：OpenAI官網(wǎng)

圖：Sam Altman邀請安全研究員加入測試

高昂的價格

除了驚嘆o3驚人的表現(xiàn)外，很多網(wǎng)友也對o3可能會導(dǎo)致的高昂任務(wù)成本表示擔(dān)憂。

2024年，AI的發(fā)展放緩了嗎？

2024年，人工智能領(lǐng)域經(jīng)歷了一場前所未有的激烈軍備競賽。這一年，不僅是技術(shù)的飛躍，更是戰(zhàn)略與創(chuàng)新的較量。每一個新產(chǎn)品的發(fā)布都牽動著整個行業(yè)的神經(jīng)，而OpenAI在年底通過o3系列的卓越表現(xiàn)，重新殺回了鐵王座，再一次將AGI的路向前推動了一步。

回顧兩年前，恍如昨日，我們正在見證歷史，親身經(jīng)歷著新一輪的技術(shù)革命。

本文來源：騰訊科技

OpenAI o3系列模型 AGI

騰訊科技

原創(chuàng)欄目