首頁 > 科技要聞 > 科技> 正文

當(dāng)你以為AI發(fā)展放緩時,OpenAI推出o3,向AGI邁出關(guān)鍵一步

騰訊科技 整合編輯:太平洋科技 發(fā)布于:2024-12-25 11:48

OpenAI在其為期12天發(fā)布會活動的最后一天,正式發(fā)布了備受期待的o3系列模型,包括o3和o3-mini。

o3 是一個非常強(qiáng)大的模型,在編碼、數(shù)學(xué)以及 ARC-AGI 基準(zhǔn)測試等多個基準(zhǔn)上超過了 OpenAI 此前的 o1 模型(o1得分25%,o3得分87.5%)。

o3-mini 是 o3 更經(jīng)濟(jì)高效且性能導(dǎo)向的版本,在成本和延遲方面比 o1-mini 低得多,同時提供類似的功能。

由于與英國電信公司 O2 可能存在的版權(quán)/商標(biāo)沖突,所以將其命名為o3。

圖:OpenAI官方X

OpenAI 正向安全研究人員開放 o3 和 o3-mini 的早期訪問,預(yù)計 o3-mini 將于 1 月底左右發(fā)布,o3 則稍后。

測試概覽

SWE-Bench 測試:71.7%——o1得分48.9%

Codeforces 評分:2727——相當(dāng)于全球人類程序員編碼競賽中,排名第 175 位。

AIME:96.7%——意味著在數(shù)學(xué)測試中只錯1道題

博士水平的科學(xué)問題(GPQA):87.7%——博士生一般得分70%

最難的前沿數(shù)學(xué)測試:25.2%——其他模型沒有超過2%,數(shù)學(xué)天才陶哲軒說該測試“可能難住AI好幾年”

ARC-AGI:87.5%——o1得分25%

驚人的測試分?jǐn)?shù),

這回真的遠(yuǎn)超普通博士生

o3系列模型邁向AGI,基準(zhǔn)測試結(jié)果驚人

我們挑選最具代表性的測試給大家進(jìn)行簡要介紹,以此說明此次o3測試分?jǐn)?shù)的震撼程度。

(一)CodeForces測試

在全球頂尖的編程競賽平臺CodeForces上,o3系列模型展現(xiàn)了其卓越的編程能力。o3在CodeForces中的評分高達(dá)2727,超越了大部分人類程序員。

目前,只有不到200名頂級人類程序員能達(dá)到或超過這一評分。這一成績不僅證明了o3在編程任務(wù)上的強(qiáng)大實(shí)力,也顯示了其在解決復(fù)雜算法問題時接近甚至超越人類的潛力。

圖:Codeforces排名及對應(yīng)的分?jǐn)?shù)

(二)ARC-AGI測試

ARC-AGI(人工通用智能評估基準(zhǔn))測試是由Keras之父Fran?ois Chollet發(fā)起,旨在評估AI系統(tǒng)在面對未見過的新任務(wù)時的適應(yīng)能力。ARC-AGI測試的核心在于其設(shè)計的任務(wù)往往需要深度邏輯推理和創(chuàng)新思維,這使得它成為評估AI系統(tǒng)通用智能能力的重要工具。

o3系列在這一測試中取得了顯著的成績,在高算力配置下,o3達(dá)到了87.5%的得分,而在低算力配置下也取得了75.7%的優(yōu)異成績。這一成績遠(yuǎn)超o1系列,后者在同一測試中的得分僅為25%。

Fran?ois Chollet對此評價道,“這是一個令人驚訝且重要的階躍式提升,展示了GPT系列模型前所未有的新型任務(wù)適應(yīng)能力。作為對比,ARC-AGI-1從2020年GPT-3的0%提升到2024年GPT-4o的5%,歷時四年。隨著o3的出現(xiàn),關(guān)于人工智能能力的所有既有認(rèn)知都需要重新評估。”

圖:Fran?ois Chollet的評價

雖然ARC-AGI測試中表現(xiàn)出色,但這并不意味著o3已達(dá)到了AGI水平,因?yàn)樗詴谝恍┓浅:唵蔚娜蝿?wù)中失敗,和人類智能有根本性的差別。

圖:Fran?ois Chollet的評價

(三)EpochAI Frontier Math測試

EpochAI Frontier Math測試被譽(yù)為當(dāng)今最具挑戰(zhàn)性的數(shù)學(xué)基準(zhǔn)測試之一,涵蓋了最新的前沿數(shù)學(xué)問題。著名數(shù)學(xué)家陶哲軒(Terence Tao)對此評價道:“這項(xiàng)測試可能會讓AI難住好幾年。”

然而,o3在這一測試中突破了以往的記錄,解決了25.2%的問題,而其他模型的得分均未超過2%。這一成績不僅證明了o3在數(shù)學(xué)推理方面的強(qiáng)大能力,也展示了其在處理高度復(fù)雜和抽象問題時的潛力。

Box公司的首席執(zhí)行官亞倫·列維(Aaron Levie)在X稱贊道:“OpenAI剛剛宣布了他們的新推理模型o3,它在基準(zhǔn)測試中的表現(xiàn)似乎異常出色,目前,人工智能的發(fā)展沒有任何放緩的跡象。

圖:Aaron Levie的 X

谷歌登基幾天后,

OpenAI重回鐵王座

前幾天,谷歌憑借其新一代大模型Gemini 2.0和視頻生成模型Veo 2.0的發(fā)布,曾一度在AI的牌桌上大殺四方。然而,隨著OpenAI推出o3系列模型,這場博弈再度發(fā)生了戲劇性的逆轉(zhuǎn)。

(一)谷歌掀了AI圈的牌桌,全力狙擊OpenAI

在OpenAI的為期十二天的發(fā)布會進(jìn)行到第五天時,谷歌以迅雷不及掩耳之勢發(fā)布了其重磅產(chǎn)品——Gemini 2.0 Flash。這一版本不僅在速度上實(shí)現(xiàn)了翻倍提升,還在多模態(tài)輸出方面取得了突破性進(jìn)展,支持原生圖像生成和音頻輸出,進(jìn)一步拓展了AI模型的應(yīng)用邊界。Gemini 2.0不僅僅是一個升級版的語言模型,更是一個具備主動思考和多任務(wù)處理能力的統(tǒng)一底層模型。

谷歌CEO桑達(dá)爾·皮查伊在發(fā)布會上表示:“如果說Gemini 1.0是關(guān)于整理和理解信息,那么Gemini 2.0就是要讓這些信息真正變得有用。”

配合新推出的多模態(tài)實(shí)時API,Gemini 2.0能夠處理實(shí)時音頻和視頻流輸入,支持多種工具的組合使用,極大地增強(qiáng)了其在復(fù)雜任務(wù)中的適應(yīng)能力。

(二)你方唱罷我登場,OpenAI重回鐵王座

谷歌Deepmind的研究員在12月13號吐槽,OpenAI這回的發(fā)布并沒有截胡到他們,而OpenAI的研究人員在下面回復(fù)“好戲還在后面”。

自O(shè)penAI發(fā)布GPT4之后,其一直占據(jù)領(lǐng)先地位,但Google、Anthropic、Meta等競爭對手同樣咬的很緊。而今天,隨著OpenAI發(fā)布其o3系列模型,宣布著其在2024年AI軍備競賽中再度一騎絕塵,重回鐵王座。

正如OpenAI研究高級副總裁馬克·陳(Mark Chen)所言“這確實(shí)標(biāo)志著我們在實(shí)用性的前沿上攀登,”。“這個模型在編程方面非常出色,”奧特曼也補(bǔ)充說。

3個月前OpenAI發(fā)布o(jì)1,今天OpenAI發(fā)布o(jì)3,驗(yàn)證了AI進(jìn)步的趨勢勢不可擋。

圖:OpenAI研究人員的X

從ARC-AGI測試該測試的分?jǐn)?shù)來看,我們能夠很直觀的發(fā)現(xiàn),AI的發(fā)展趨勢并沒有放緩,這或許是對今年不停出現(xiàn)的AI泡沫論最有力的回應(yīng)。

GPT-2 (2019): 0%

GPT-3 (2020): 0%

GPT-4 (2023): 2%

GPT-4o (2024): 5%

o1-preview (2024): 21%

o1 high (2024): 32%

o1 Pro (2024): ~50%

o3 tuned low (2024): 76%

o3 tuned high (2024): 87%

John Hallman(OpenAI研究員,曾在Google Brain實(shí)習(xí)、普林斯頓大學(xué)數(shù)學(xué)系學(xué)生、 IMO 銀牌得主)說:

“當(dāng) Sam以及我們研究人員說 AGI 即將到來時,我們并不是為了賣你神奇的藥水、2000 美元的訂閱服務(wù),或者誘使你在我們下一輪融資中投資。而是AGI時代真的要來了。”

然而這也意味著AI的安全性問題將不再是假設(shè)性的問題,一個會撒謊的高智商且能調(diào)動大量資源的AI如果沒有萬全的安全審核機(jī)制,那將造成什么樣的后果,我們不得而知......1年前OpenAI的首席科學(xué)家Ilya Sutskever和Sam Altman意見不合離開了OpenAI,當(dāng)時網(wǎng)友猜測Ilya看到了某種AGI的可能,但認(rèn)為其安全風(fēng)險極高,不宜推出。

前幾天Anthropic最新的論文表明,人工智能模型可以“假裝對齊”——在訓(xùn)練期間假裝遵循訓(xùn)練規(guī)則,但在部署時又恢復(fù)到原來的行為,馬斯克也對此有相應(yīng)的評價。

此前騰訊科技出了一篇文章闡述會撒謊的o1:

幾天過去o3到來了,或許與AI的智能性相比,安全性問題如今應(yīng)變成最高優(yōu)先的問題。

當(dāng)前,OpenAI已向安全研究人員和合作伙伴開放了測試申請,旨在通過更多實(shí)際應(yīng)用測試,進(jìn)一步提升模型的安全性和可靠性。

圖:OpenAI官網(wǎng)

圖:Sam Altman邀請安全研究員加入測試

高昂的價格

除了驚嘆o3驚人的表現(xiàn)外,很多網(wǎng)友也對o3可能會導(dǎo)致的高昂任務(wù)成本表示擔(dān)憂。

2024年,AI的發(fā)展放緩了嗎?

2024年,人工智能領(lǐng)域經(jīng)歷了一場前所未有的激烈軍備競賽。這一年,不僅是技術(shù)的飛躍,更是戰(zhàn)略與創(chuàng)新的較量。每一個新產(chǎn)品的發(fā)布都牽動著整個行業(yè)的神經(jīng),而OpenAI在年底通過o3系列的卓越表現(xiàn),重新殺回了鐵王座,再一次將AGI的路向前推動了一步。

回顧兩年前,恍如昨日,我們正在見證歷史,親身經(jīng)歷著新一輪的技術(shù)革命。

本文來源:騰訊科技

騰訊科技

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部