OpenAI o1徹底帶火慢思考和思維鏈(CoT)方法,但CoT在某些任務(wù)上反而會(huì)降低模型表現(xiàn)。 比如給生造的詞分類任務(wù),GPT-4在zero-shot提示下的準(zhǔn)確率高達(dá)94%,換成CoT的準(zhǔn)確率卻斷崖式下跌到64.4%。 內(nèi)置CoT的o1-preview準(zhǔn)確率更是只有57.7%。 CoT究竟會(huì)“搞砸”哪些任務(wù),在學(xué)術(shù)界仍是一個(gè)懸而未決的問(wèn)題。 現(xiàn)在,普林斯頓計(jì)算機(jī)系與心理系合作,確定了其中一些任務(wù)的特征:人類深思熟慮或被要求解釋自己的思路時(shí),也會(huì)降低在這些任務(wù)上的表現(xiàn)。 新論文“一步一步想,但小心腳下”已上傳到arXiv。 心理學(xué)探索思維鏈掉鏈子原因 為了縮小要探索的范圍,團(tuán)隊(duì)在CoT提示和人類進(jìn)行語(yǔ)言思考之間進(jìn)行了類比。 大模型和人類具能力有著根本不同,因此影響表現(xiàn)的約束因素也不同。如大模型的上下文長(zhǎng)度很長(zhǎng),遠(yuǎn)遠(yuǎn)超出了人類的記憶限制。 因此,團(tuán)隊(duì)預(yù)計(jì)CoT將在以下情況下?lián)p害模型性能: (i) 深思熟慮會(huì)損害人類的表現(xiàn) 在實(shí)驗(yàn)中,選擇了心理學(xué)文獻(xiàn)中的6項(xiàng)任務(wù),其中隱式統(tǒng)計(jì)學(xué)習(xí)、面部識(shí)別、包含異常的數(shù)據(jù)分類符合假設(shè)條件。 隱式統(tǒng)計(jì)學(xué)習(xí)(Implicit Statistical Learning)心理學(xué)研究發(fā)現(xiàn),當(dāng)包含統(tǒng)計(jì)模式的數(shù)據(jù)不用語(yǔ)言來(lái)描述時(shí),人類可以更好地概括這些數(shù)據(jù)。 使用有限狀態(tài)語(yǔ)法構(gòu)建“人造單詞”,參與者的任務(wù)是識(shí)別哪些單詞屬于同一類別。 人類參與者可以識(shí)別格式不正確的序列,但無(wú)法用語(yǔ)言表達(dá)他們判斷的基礎(chǔ)。 在幾個(gè)開(kāi)源和閉源模型上評(píng)估這項(xiàng)任務(wù),發(fā)現(xiàn)與zero-shot提示相比,使用CoT提示時(shí)性能大幅降低。 面部識(shí)別(Facial Recognition) 另一類任務(wù)中語(yǔ)言思考會(huì)干擾視覺(jué)感知,稱為語(yǔ)言遮蔽(verbal overshadowing)。 在實(shí)驗(yàn)中選用了經(jīng)典的人臉識(shí)別任務(wù),首先展示一個(gè)人臉照片,要求參與者從候選列表中找出同一個(gè)人。 人類參與者不說(shuō)話直接選準(zhǔn)確率更高,先描述看到的人臉再選的話面部識(shí)別能力反而受損。 多模態(tài)大模型的表現(xiàn)相似,當(dāng)使用CoT提示時(shí),所有模型性能都下降。其中較弱的模型傾向于回答“所有圖像都是同一個(gè)人的”。 包含異常的數(shù)據(jù)分類(Classifying Data With Patterns That Contain Exceptions) 第三類任務(wù)設(shè)置比較復(fù)雜,其中包含一個(gè)陷阱。 有10輛不同的車需要分為A類和B類,每輛車有5個(gè)特征: 1個(gè)獨(dú)特特征(車牌號(hào),每輛車不同) 1個(gè)看起來(lái)有規(guī)律的特征,如顏色,但有20%的例外。 3個(gè)與分類無(wú)關(guān)的特征,如變速箱類型、座椅材質(zhì)、車門數(shù)量 實(shí)際上只有車牌號(hào)才是最可靠的分類依據(jù)。 如果10輛車沒(méi)有全部猜對(duì),就會(huì)重新打亂順序再來(lái)一輪,最多可以嘗試15輪。 不用CoT提示時(shí),模型很快就能記住每輛車的正確分類。使用CoT時(shí),模型會(huì)陷入試圖總結(jié)規(guī)律的思維定式,需要嘗試的輪數(shù)增加。 和人類在被要求解釋分類依據(jù)時(shí)的表現(xiàn)很像。 大模型和人類約束條件不同 同時(shí),研究團(tuán)隊(duì)也找出三種,滿足思考降低人類表現(xiàn),但大模型使用CoT提示能提升性能的任務(wù)。 自然語(yǔ)言推理 空間直覺(jué)(涉及模型缺乏相關(guān)先驗(yàn)知識(shí)) 涉及工作記憶限制的任務(wù) 團(tuán)隊(duì)分析原因認(rèn)為,模型和人類具有根本不同的能力,存在不同的約束條件影響其性能, 這是因?yàn)榇竽P蛽碛羞h(yuǎn)超人類的工作記憶(上下文長(zhǎng)度)和某些特定的邏輯推理能力。 換言之,CoT到底好不好用,還得具體情況具體分析。 這項(xiàng)研究更大的意義在于,將認(rèn)知心理學(xué)與大模型之間建立了聯(lián)系。 論文的討論部分提出,心理學(xué)界幾十年來(lái)積累的豐富文獻(xiàn)中,或許還能找出更多推進(jìn)大模型領(lǐng)域的見(jiàn)解。 論文地址: 本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選