首頁 > 科技要聞 > 科技> 正文

單靠推理Scaling Law無法成就o1!無限推理token,GPT-4o依然完敗

新智元 整合編輯:太平洋科技 發(fā)布于:2024-10-07 21:21

CoT鑄就了o1推理王者。

它開創(chuàng)了一種推理scaling新范式——隨著算力增加、更長響應(yīng)時間,o1性能也隨之增長。

這一點,為AI scaling開辟了新的可能性。

既然如此,若是將o1這一訓(xùn)練過程直接應(yīng)用到所有LLM中,豈不皆是「推理王者」。

然而,研究機(jī)構(gòu)Epoch AI發(fā)現(xiàn),結(jié)果并不是這樣的。

單純的擴(kuò)展推理計算,根本不能彌合o1-preview和GPT-4o之間的差距。

他們稱,「雖然o1使用了逐步推理方法訓(xùn)練,但其性能改進(jìn),可能還存在其他的因素」。

o1的秘訣是什么?

上周,在o1-preview和o1-mini發(fā)布之后,Epoch AI研究人員開啟了GPT-4o和o1-preview對比實驗。

他們選擇了一個具有挑戰(zhàn)性的基準(zhǔn)測試GPQA進(jìn)行評估,其中包含STEM領(lǐng)域研究生級別的多項選擇題,而且考慮到模型的隨機(jī)性進(jìn)行了多次運(yùn)行。

結(jié)果發(fā)現(xiàn)o1-preview的性能遠(yuǎn)遠(yuǎn)好于GPT-4o,比Claude 3.5 Sonnet、Llama3.1 405B也拉開了相當(dāng)大的差距。

這個結(jié)果也和OpenAI自己放出的測試結(jié)果相吻合,尤其是在AIME和Codeforces這類難度更高的基準(zhǔn)上,o1-preview相比GPT-4o的提升更加明顯。

然而,考慮到o1模型相比GPT-4o使用了更多的推理時計算,而且每個問題生成的token也更多,這種比較顯得不太公平。

因此,研究人員使用了兩種方法嘗試增加GPT-4o的輸出token,類似于讓GPT-4o模仿o1的思考過程。

- 多數(shù)投票(majority voting):選擇k個推理軌跡中最常見的答案

- 修正(revision):給模型n次反思和改進(jìn)答案的機(jī)會

值得注意的是,這些都是相對簡單的方法。其實存在更復(fù)雜、有效的方法來利用推理時間計算,比如讓過程獎勵模型作為驗證器參與搜索。

o1模型很可能使用了更復(fù)雜的方法,但Epoch研究人員只是想建立一個比較基線,因此選擇了較為基礎(chǔ)的方法。

結(jié)果顯示,雖然這兩種方法都生成了更多的token,并提高了GPT-4o的準(zhǔn)確性,但依舊無法匹敵o1-preview的性能。

GPT-4o變體的準(zhǔn)確率仍然顯著低于o1-preview,差距始終大于10個百分點。

與o1-preview相比,輸出token數(shù)量對GPT-4o在GPQA上性能的影響

即使考慮到o1-preview每個輸出token的成本更高,這種性能差距仍然存在。

Epoch AI團(tuán)隊的推算結(jié)果表明,即使在GPT-4o上花費1000美元用于輸出token,準(zhǔn)確率仍將比o1-preview低10多個百分點。

對GPT-4o mini進(jìn)行相同操作后也能得到類似的結(jié)果,但在進(jìn)行模型修正后,結(jié)果存在一些差異。

隨著修正次數(shù)的增加,模型準(zhǔn)確性不會持續(xù)提升,反而會在到達(dá)一定閾值后開始下降。這可能是由于GPT-4o mini在長上下文推理方面的局限。

從以上結(jié)果可以看出,僅僅擴(kuò)大推理處理能力并不足以解釋o1的卓越性能。

研究作者認(rèn)為,先進(jìn)的強(qiáng)化學(xué)習(xí)技術(shù)和改進(jìn)的搜索方法可能發(fā)揮了關(guān)鍵作用,凸顯了在Scaling Law之外,算法創(chuàng)新對AI發(fā)展的重要性。

但是,我們也并不能確定算法改進(jìn)是o1-preview優(yōu)于GPT-4o的唯一因素,更高質(zhì)量的訓(xùn)練數(shù)據(jù)也可能導(dǎo)致性能差異。

推理很強(qiáng)的o1,差在規(guī)劃能力

雖然GPQA或AIME這類問題相當(dāng)困難,但一般只會考察模型的在STEM領(lǐng)域的知識儲備和推理能力。那么強(qiáng)如o1,它的規(guī)劃能力如何?

2022年,亞利桑那州大學(xué)的學(xué)者們曾經(jīng)提出過一個用于評測LLM規(guī)劃能力的基準(zhǔn)套件PlanBench,包括了來自Blocksworld領(lǐng)域的600個任務(wù),要求將一定數(shù)量的積木按照指定順序堆疊起來。

在MMLU、GSM8K等傳統(tǒng)基準(zhǔn)相繼飽和時,兩年前提出的PlanBench依舊沒有飽和,可見當(dāng)今的LLM在規(guī)劃能力方面依舊有很大的提升空間。

o1之前的模型中,PlanBench準(zhǔn)確率很少超過50%

最近,提出PlanBench團(tuán)隊又測試了一下最新的o1-preview模型,發(fā)現(xiàn)雖然o1的結(jié)果已經(jīng)表現(xiàn)出了實質(zhì)性改進(jìn),但仍然存在很大的局限性,不能完全解決規(guī)劃任務(wù)。

在Blocksworld任務(wù)上,o1實現(xiàn)了97.8%的準(zhǔn)確率,遠(yuǎn)遠(yuǎn)優(yōu)于LLaMA 3.1 405B之前達(dá)到的最好成績62.6%。

在更具挑戰(zhàn)性的任務(wù)版本Mystery Blocksworld上,之前的LLM幾乎完全失敗,而o1達(dá)到了52.8%的準(zhǔn)確率。

此外,為了排除o1的性能提升源于訓(xùn)練數(shù)據(jù)中包含基準(zhǔn)測試,研究人員還創(chuàng)建了Mystery Blocksworld的隨機(jī)變體進(jìn)行測試(表2中的Randomized Mystery Blocksworld)。

o1在隨機(jī)變體測試集上的成績從52.8%下降至37.3%,但依舊超過得分接近于0的之前其他模型。

雖然o1和o1-mini都取得了不錯的成績,但性能并不穩(wěn)健。隨著任務(wù)逐漸復(fù)雜、計劃步驟增加,性能會出現(xiàn)直線下降。

在這組含有110個實例的較大Blocksworld數(shù)據(jù)集上,每個問題都需要20~40個步驟的最佳計劃,而o1的準(zhǔn)確率從之前報告的97.8%直接下降至23.6%,而且這些準(zhǔn)確率大部分都來自步驟少于28的問題。

相比準(zhǔn)確性更高、成本更低的傳統(tǒng)方法,如經(jīng)典規(guī)劃器Fast Downward或LLM-Modulo系統(tǒng),o1這樣的大型推理模型(LRM)非常缺乏正確性保證,而且使得可解釋性幾乎不可能,因此很難在實際應(yīng)用中部署。

o1雖強(qiáng),但絕不是萬能的。OpenAI想要真正實現(xiàn)AGI,還需要走很長一段路。

本文來源:新智元

新智元

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
  • 二維碼 回到頂部