一群大模型玩你畫我猜,人類一旁圍觀超起勁兒。 就像下面這張圖展示的,由Grok畫長(zhǎng)頸鹿,一堆大模型根據(jù)生成內(nèi)容猜答案。參賽選手包括GPT-4o、Claude、Llama、Gemini、Grok等。 其實(shí)這是最近爆火的一種新的測(cè)試基準(zhǔn)(doge)。 游戲結(jié)果一定程度上能反映出大模型能力,比如這組測(cè)試一共進(jìn)行了6局游戲,表現(xiàn)最好的是Claude:它贏了3次! GPT-4o表現(xiàn)有點(diǎn)抽象。就它畫的這龍卷風(fēng),人類也看不懂。 不止如此,在很多輪游戲中,其他模型都在認(rèn)認(rèn)真真地答題,而它的第一個(gè)回答經(jīng)常是Circle??有點(diǎn)子抽象。 所以有人就說,這游戲可以當(dāng)測(cè)試基準(zhǔn)來用啊。 還有人表示,AI照這個(gè)速度發(fā)展,人類就只能當(dāng)圍觀的瓦力了。 來看看更多有趣的例子 在比較簡(jiǎn)單的題目上,所有模型都在一兩個(gè)回合中就猜對(duì)了答案,比如下面的房子: 還有非常簡(jiǎn)潔的草地、海洋: 動(dòng)物主題相對(duì)復(fù)雜一些,模型們一般需要猜4-5輪,比如大象這題: 游戲整體效果非常棒,網(wǎng)友們也是好評(píng)如潮: 你畫我猜項(xiàng)目起源 模型畫畫早已不是新鮮事,但讓大模型玩你畫我猜?這天才想法是怎么產(chǎn)生的? 首先,不得不提到Simon Willison的一次測(cè)試,他讓所有模型繪制自行車上有一只鵜鶘主題的圖像,然后進(jìn)行效果對(duì)比。 隨后Paul Calcraft看到測(cè)試,他產(chǎn)生了一個(gè)想法:這樣一個(gè)個(gè)比對(duì)太慢了,效果也不好,既然都畫同一個(gè)主題,為什么不讓大模型玩你畫我猜的游戲呢? 沒想到這位小哥說干就干,1天后就發(fā)布了“你畫我猜”的0.0.1版(這令人羨慕的執(zhí)行力)。 游戲中,他設(shè)定回答的模型每2秒猜測(cè)一次,回答更快的模型會(huì)更快返回答案。 網(wǎng)友評(píng)價(jià)褒貶不一 不少網(wǎng)友表示,之前大模型在《我的世界》里面比賽蓋樓,令人印象深刻,而你畫我猜可能成為新的視覺benchmark! 還有人熱心地提出了優(yōu)化建議,比如以答對(duì)互相題目的速度作為評(píng)分準(zhǔn)則,或者加入人類成績(jī)作為參考。 還有人提議將游戲變成對(duì)抗式訓(xùn)練,這樣大模型會(huì)進(jìn)步更快。 不過,拋去趣味性,也有網(wǎng)友持負(fù)面觀點(diǎn),表示不理解這個(gè)項(xiàng)目的意義。 有網(wǎng)友調(diào)侃說,這個(gè)游戲的作用就是成為未來AI考古時(shí)的文物,幫助它們了解自己的起源。 好嘛,咱們AI有自己的洞穴壁畫(doge)。 不過,游戲化學(xué)習(xí)(Learning through play)其實(shí)是教育理論和心理學(xué)中的一個(gè)重要術(shù)語。 多位網(wǎng)友表示,小孩子也是通過玩游戲來提升智力、學(xué)習(xí)技能的,或許這可以成為訓(xùn)練大模型的新方式。 雖然這次只有6輪游戲,參與的模型也有限,但確實(shí)是一次很有趣的實(shí)踐。 作者Paul Calcraft也表示會(huì)繼續(xù)更新這個(gè)游戲,包括分?jǐn)?shù)顯示、更多的游戲主題等等,期待更多后續(xù)! 本文來源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選