首頁(yè) > 科技要聞 > 科技> 正文

大模型玩你畫我猜:Claude6局3勝,GPT-4o表現(xiàn)迷惑

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-04 16:49

一群大模型玩你畫我猜,人類一旁圍觀超起勁兒。

就像下面這張圖展示的,由Grok畫長(zhǎng)頸鹿,一堆大模型根據(jù)生成內(nèi)容猜答案。參賽選手包括GPT-4o、Claude、Llama、Gemini、Grok等。

其實(shí)這是最近爆火的一種新的測(cè)試基準(zhǔn)(doge)。

游戲結(jié)果一定程度上能反映出大模型能力,比如這組測(cè)試一共進(jìn)行了6局游戲,表現(xiàn)最好的是Claude:它贏了3次!

GPT-4o表現(xiàn)有點(diǎn)抽象。就它畫的這龍卷風(fēng),人類也看不懂。


不止如此,在很多輪游戲中,其他模型都在認(rèn)認(rèn)真真地答題,而它的第一個(gè)回答經(jīng)常是Circle??有點(diǎn)子抽象。



所以有人就說,這游戲可以當(dāng)測(cè)試基準(zhǔn)來用啊。

還有人表示,AI照這個(gè)速度發(fā)展,人類就只能當(dāng)圍觀的瓦力了。

來看看更多有趣的例子

在比較簡(jiǎn)單的題目上,所有模型都在一兩個(gè)回合中就猜對(duì)了答案,比如下面的房子

還有非常簡(jiǎn)潔的草地海洋


動(dòng)物主題相對(duì)復(fù)雜一些,模型們一般需要猜4-5輪,比如大象這題:

游戲整體效果非常棒,網(wǎng)友們也是好評(píng)如潮:

你畫我猜項(xiàng)目起源

模型畫畫早已不是新鮮事,但讓大模型玩你畫我猜?這天才想法是怎么產(chǎn)生的?

首先,不得不提到Simon Willison的一次測(cè)試,他讓所有模型繪制自行車上有一只鵜鶘主題的圖像,然后進(jìn)行效果對(duì)比。

隨后Paul Calcraft看到測(cè)試,他產(chǎn)生了一個(gè)想法:這樣一個(gè)個(gè)比對(duì)太慢了,效果也不好,既然都畫同一個(gè)主題,為什么不讓大模型玩你畫我猜的游戲呢?

沒想到這位小哥說干就干,1天后就發(fā)布了“你畫我猜”的0.0.1版(這令人羨慕的執(zhí)行力)。

游戲中,他設(shè)定回答的模型每2秒猜測(cè)一次,回答更快的模型會(huì)更快返回答案。

網(wǎng)友評(píng)價(jià)褒貶不一

不少網(wǎng)友表示,之前大模型在《我的世界》里面比賽蓋樓,令人印象深刻,而你畫我猜可能成為新的視覺benchmark!

還有人熱心地提出了優(yōu)化建議,比如以答對(duì)互相題目的速度作為評(píng)分準(zhǔn)則,或者加入人類成績(jī)作為參考。

還有人提議將游戲變成對(duì)抗式訓(xùn)練,這樣大模型會(huì)進(jìn)步更快。

不過,拋去趣味性,也有網(wǎng)友持負(fù)面觀點(diǎn),表示不理解這個(gè)項(xiàng)目的意義。

有網(wǎng)友調(diào)侃說,這個(gè)游戲的作用就是成為未來AI考古時(shí)的文物,幫助它們了解自己的起源。

好嘛,咱們AI有自己的洞穴壁畫(doge)。

不過,游戲化學(xué)習(xí)(Learning through play)其實(shí)是教育理論和心理學(xué)中的一個(gè)重要術(shù)語。

多位網(wǎng)友表示,小孩子也是通過玩游戲來提升智力、學(xué)習(xí)技能的,或許這可以成為訓(xùn)練大模型的新方式。

雖然這次只有6輪游戲,參與的模型也有限,但確實(shí)是一次很有趣的實(shí)踐。

作者Paul Calcraft也表示會(huì)繼續(xù)更新這個(gè)游戲,包括分?jǐn)?shù)顯示、更多的游戲主題等等,期待更多后續(xù)!

本文來源:量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部