o3在超難推理任務(wù)ARC-AGI上的成績(jī),屬實(shí)給人類帶來(lái)了不少震撼。 但有人專門研究了它不會(huì)做的題之后,有了更有趣的發(fā)現(xiàn)—— o3之所以不會(huì)做這些題,原因可能不是因?yàn)樘y,而是題目的規(guī)模太大了。 來(lái)自英國(guó)的ML工程師Mikel Bober-Irizar(不妨叫他米哥),對(duì)ARC題目進(jìn)行了細(xì)致觀察。 結(jié)果米哥發(fā)現(xiàn),題目中的網(wǎng)格規(guī)模越大,大模型的表現(xiàn)也就越差。 而且不僅是o3,o1和o1 mini,還有隔壁的Claude,都出現(xiàn)了這樣的現(xiàn)象。 米哥的這項(xiàng)研究,引起了人們對(duì)大模型工作機(jī)制的許多討論。 世界首位全職提示詞工程師Riley Goodside看到后,也認(rèn)為這是一項(xiàng)很好的研究。 大模型被困在了網(wǎng)格規(guī)模上 還是先簡(jiǎn)單回顧一下ARC挑戰(zhàn),題目帶有色塊的網(wǎng)格陣列(以文本形式表述,用數(shù)字代表顏色),大模型需要觀察每道題目中3個(gè)輸入-輸出示例,然后根據(jù)規(guī)律填充新的空白網(wǎng)格。 米哥發(fā)現(xiàn),在ARC挑戰(zhàn)中,規(guī)模越大,也就是網(wǎng)格的數(shù)量越多,大模型的表現(xiàn)也就越差。 o3也逃不過(guò)這樣的魔咒,但相比于其他模型,o3表現(xiàn)的明顯下降出現(xiàn)得更晚,大約在網(wǎng)格數(shù)量達(dá)到1024個(gè)之后(請(qǐng)記住這個(gè)位置,后面還會(huì)講到)。 為了進(jìn)一步驗(yàn)證這個(gè)發(fā)現(xiàn),米哥還用o1-mini進(jìn)行了實(shí)際測(cè)試。 下圖當(dāng)中,左右兩欄的題目乍一看上去好像沒(méi)什么區(qū)別,但在右邊,米哥對(duì)網(wǎng)格進(jìn)行了細(xì)粒度的切割,原來(lái)的一個(gè)格子被切成了4(2×2)個(gè)。 結(jié)果原來(lái)能做對(duì)的題,切成小塊之后,o1-mini還真就不靈了。 進(jìn)一步地,米哥還對(duì)ARC數(shù)據(jù)集中的規(guī)模分布進(jìn)行了統(tǒng)計(jì),結(jié)果剛好是規(guī)模在1024個(gè)像素的題目數(shù)量最多。 還記得前面o3成績(jī)下降趨勢(shì)突然變大的位置吧,剛好就是在1024附近。 米哥認(rèn)為,這就是o3在ARC挑戰(zhàn)上取得優(yōu)異成績(jī)的重要因素,而其他模型成績(jī)不佳,是因?yàn)閷?duì)應(yīng)的小規(guī)模試題占比較少。 所以在米哥看來(lái),ARC挑戰(zhàn)并不能完全反映大模型真實(shí)的推理能力——有不少模型都被低估,o3則是被高估了。 ARC挑戰(zhàn)不適合大模型? 那么,為什么題目中網(wǎng)格數(shù)量一多,大模型的表現(xiàn)就不好了呢? 先來(lái)看米哥的分析。 米哥引用了紐約大學(xué)的一項(xiàng)研究結(jié)果(arXiv:2409.01374),這項(xiàng)研究發(fā)現(xiàn)人類在挑戰(zhàn)這樣的問(wèn)題時(shí)并不會(huì)出現(xiàn)這種現(xiàn)象。 如果在人類和模型之間做個(gè)比較,那么在規(guī)模較小時(shí)o3的表現(xiàn)可以說(shuō)完勝人類,但規(guī)模較大時(shí)優(yōu)勝方就變成了人類。 這說(shuō)明,大模型在解決此類問(wèn)題時(shí),思考方式和人類依然存在差別。 當(dāng)然,大模型在挑戰(zhàn)ARC時(shí)看到的不是圖像,而是用數(shù)字代表的矩陣,這是顯而易見(jiàn)的,但差別還不止于此。 人類在面對(duì)ARC問(wèn)題時(shí),即使是用這種數(shù)字矩陣來(lái)表示,也能夠看出視覺(jué)信息,理解其中的位置關(guān)系。 在空間中,ARC是一個(gè)二維問(wèn)題,需要跨行和列進(jìn)行推理,但大模型在處理token時(shí)是以一維格式進(jìn)行的。 這意味著,大模型進(jìn)行跨列推理時(shí),需要組合較長(zhǎng)的上下文信息。 而隨著網(wǎng)格變得更大,模型需要對(duì)更長(zhǎng)的上下文進(jìn)行推理,并且必須對(duì)相距較遠(yuǎn)的數(shù)字進(jìn)行組合和推理。 米哥之前曾經(jīng)和劍橋大學(xué)高級(jí)研究員Soumya Banerjee此前進(jìn)行的一項(xiàng)研究(arXiv:2402.03507)表明,通過(guò)對(duì)矩陣進(jìn)行90度旋轉(zhuǎn),讓模型分別基于行和列進(jìn)行推理,比直接做題成績(jī)提高了一倍。 所以米哥認(rèn)為,是觀察問(wèn)題的維度影響了大模型的成績(jī),ARC這種任務(wù)并不適合大模型。 他還表示在NeurIPS上聽(tīng)到了一個(gè)很好的類比—— 將二維的ARC任務(wù)交給大模型,就像期望人類在四維空間中進(jìn)行推理。 同時(shí)網(wǎng)友們還指出,雖然本質(zhì)上涉及了維度差異,但視覺(jué)依然是一個(gè)重要因素。 想象一下,如果人沒(méi)有視覺(jué)能力,單純依靠聽(tīng)或其他方式獲得關(guān)于其中網(wǎng)格的信息,也很難直接構(gòu)建出二維的矩陣。 不過(guò)說(shuō)到這,即便模型擁有“視覺(jué)”能力,也是將視覺(jué)信息轉(zhuǎn)換為Token,和人類的視覺(jué)也未必相同。 網(wǎng)友認(rèn)為,真正的視覺(jué)需要能夠處理并行輸入的信息,而不是逐個(gè)Token的串行輸入,二進(jìn)制IO數(shù)據(jù)流或許是一種解決方案。 One More Thing 根據(jù)ARC挑戰(zhàn)官方的說(shuō)法,ARC-AGI的下一代ARC-AGI-2即將推出。 早期測(cè)試表明,其將對(duì)o3構(gòu)成重大挑戰(zhàn)—— 即使在高計(jì)算量模式下,o3的得分也可能會(huì)降低到30%以下(而聰明人仍然能夠得分超過(guò)95%)。 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選
在經(jīng)歷了2018-2020年“蔚小理”的上市潮后,隨著國(guó)內(nèi)新能源汽車市場(chǎng)競(jìng)爭(zhēng)日益激烈,以及全球EV需求放緩,IPO的大門正在向造車新勢(shì)力們緩緩關(guān)閉。極氪的成功上市既是對(duì)新勢(shì)力的一次激勵(lì),也是一次警示——后來(lái)者必須面對(duì)越來(lái)越嚴(yán)苛的上市條件。留給哪吒汽車、廣汽埃安們的機(jī)會(huì)可能不多了。