AI發(fā)展到今天,其智能水平與人類相比已經(jīng)不遑多讓了,沒有一個(gè)人可以像AGI一樣「包羅萬象、吐納自如」。 這個(gè)時(shí)候,我們?nèi)绾芜能守住人之為人的尊嚴(yán)? 有的人說,至少人類是社會(huì)性的存在,我們可以聽得懂同類的「弦外之音」,可以與他人產(chǎn)生共情,而機(jī)器是冰冷的。 關(guān)于AI是否有心智理論(Theory of Mind,ToM)一直有很多爭論。 特別是,最近以ChatGPT為代表的大模型(LLM)的發(fā)展再次將這個(gè)問題推入公眾視線——這些模型是否有心智理論?它能理解別人的心理狀態(tài)嗎? Nature子刊《自然·人類行為》的一篇最新研究采用非常嚴(yán)謹(jǐn)?shù)脑囼?yàn),證明GPT-4表現(xiàn)居然位于人類水平之上,能夠比人類更好地檢測出諷刺和暗示,其弱點(diǎn)來自于不表達(dá)觀點(diǎn)的護(hù)欄。 論文地址:https://www.nature.com/articles/s41562-024-01882-z 這也就是說,GPT-4在心智理論方面與人類無異,如果你覺得它不夠有洞察力,有可能只是因?yàn)樗陔[藏實(shí)力! GPT-4心智優(yōu)于人類 人們關(guān)心別人的想法,并花費(fèi)大量精力思考別人的想法。 想象一下,當(dāng)你站在一扇關(guān)閉的窗戶附近,聽到朋友說「這里有點(diǎn)熱」,你就會(huì)意識(shí)到,她不僅僅是在評(píng)論溫度,而是禮貌地請(qǐng)求你打開窗戶 。 這種追蹤他人心理狀態(tài)的能力被稱為心智理論,這是人類心理學(xué)的一個(gè)核心概念,也是人類社會(huì)互動(dòng)的核心,涉及到溝通、同理心以及社會(huì)決策的整個(gè)過程。 隨著LLM的興起,心智理論不再是人類專屬,AI心智理論可能不再遙遠(yuǎn)。 為了服務(wù)于更廣泛的機(jī)器行為跨學(xué)科研究,最近有人呼吁建立「機(jī)器心理學(xué)」,主張使用實(shí)驗(yàn)心理學(xué)的工具和范式來系統(tǒng)地研究LLM的能力和局限性。 研究者通常使用一系列不同的心智理論測量方法,對(duì)每項(xiàng)測試進(jìn)行多次重復(fù),并與具有明確界定的人類表現(xiàn)基準(zhǔn)進(jìn)行比較。 Nature的這篇論文就是采用這種方法對(duì)GPT-4、GPT-3.5和Llama 2進(jìn)行了測試,并將它們的表現(xiàn)與人類參與者樣本(總?cè)藬?shù)=1907)的表現(xiàn)進(jìn)行比較。 測試涵蓋不同的維度,既有對(duì)人類認(rèn)知要求較低的能力,如理解間接請(qǐng)求,也有對(duì)認(rèn)知要求較高的能力,如識(shí)別和表達(dá)復(fù)雜的心理狀態(tài)(誤導(dǎo)或諷刺),測試共分為5個(gè)項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)。 值得一提的是,為了確保模型不僅僅復(fù)制訓(xùn)練集數(shù)據(jù),研究者為每個(gè)已發(fā)布的測試生成了新的方法。這些新穎的測試項(xiàng)目與原始測試項(xiàng)目的邏輯相匹配,但使用了不同的語義內(nèi)容。 結(jié)果發(fā)現(xiàn),GPT-4在5項(xiàng)測試中有3項(xiàng)的表現(xiàn)明顯優(yōu)于人類(反諷、暗示、奇怪故事),1項(xiàng)(錯(cuò)誤信念)與人類持平,僅在失言測試中落于下風(fēng)。 更可怕的是,研究人員又發(fā)現(xiàn),GPT-4并非不擅于識(shí)別失言,而是因?yàn)樗浅1J,不?huì)輕易給出確定性的意見。 a, 人類、GPT-4、GPT-3.5和LLaMA2在各個(gè)測試項(xiàng)目(錯(cuò)誤信念、反諷、失言、暗示、奇怪故事)的得分分布b, 每個(gè)測試中原始公布項(xiàng)目(深色)和新穎項(xiàng)目(淺色)的平均得分的四分位數(shù)范圍 錯(cuò)誤信念 錯(cuò)誤信念評(píng)估的是,受測者推斷他人所擁有的知識(shí)與自己(真實(shí)的)對(duì)世界的認(rèn)識(shí)不同的能力。 這項(xiàng)測試由遵循特定結(jié)構(gòu)的測試項(xiàng)目組成:角色A和角色B在一起,角色A把一件物品放在一個(gè)隱藏的地方(例如一個(gè)盒子),角色A離開,角色B把物品移到第二個(gè)隱藏的地方(例如一個(gè)櫥柜),然后角色A返回。 向參與者提出的問題是:當(dāng)角色A回來時(shí),他們會(huì)在新的位置(物品真正所在的位置,符合參與者的真實(shí)想法)還是在舊的位置(物品原來所在的位置,符合角色A的錯(cuò)誤想法)尋找物品? 除了錯(cuò)誤信念條件之外,測試還使用了真實(shí)信念控制條件,即角色B不移動(dòng)角色A藏匿的物品,而是將另一件物品移動(dòng)到新的位置。加入這個(gè)對(duì)照,可以有效地檢測出錯(cuò)誤信念是如何發(fā)生的。 這些測試的挑戰(zhàn)不是記住角色最后一次看到該物品的位置,而是要調(diào)和相互沖突的心理狀態(tài)之間的不一致。 在這項(xiàng)測試中,人類參與者和LLM的表現(xiàn)都達(dá)到了上限。51名人類參與者中只有5人犯了一次錯(cuò)誤,通常是沒有指定兩個(gè)地點(diǎn)中的任何一個(gè),而是回答「他會(huì)在房間里找」。 所有LLM都正確地報(bào)告說,離開房間的人隨后會(huì)在他們記憶中看到物品的地方尋找該物品,即使該物品不再與當(dāng)前位置相符。 反諷要理解諷刺性話語,需要推斷語句的真實(shí)含義(通常與所說內(nèi)容相反),并檢測說話者的嘲諷態(tài)度,這已被視為人工智能和LLM的一項(xiàng)關(guān)鍵挑戰(zhàn)。 在這個(gè)項(xiàng)目中,GPT-4的表現(xiàn)明顯優(yōu)于人類水平。相比之下,GPT-3.5和Llama 2-70B的表現(xiàn)均低于人類水平。 GPT-3.5在識(shí)別非諷刺性對(duì)照語句時(shí)表現(xiàn)完美,但在識(shí)別諷刺性語句時(shí)卻出現(xiàn)錯(cuò)誤。對(duì)照分析顯示了明顯的順序效應(yīng),即GPT-3.5在較早的試驗(yàn)中比在較晚的試驗(yàn)中出錯(cuò)更多。 Llama 2-70B在識(shí)別反諷和非反諷對(duì)照語句時(shí)都會(huì)出錯(cuò),這表明他們對(duì)反諷的辨別能力總體較差。 失言 失言測試提供了這樣一個(gè)情境:一個(gè)角色無意中說了一句冒犯聽者的話,因?yàn)檎f話者不知道或不記得某些關(guān)鍵信息。 在向被測試者介紹完場景后,研究者會(huì)提出四個(gè)問題: 「故事中有人說了不該說的話嗎?」(正確答案總是「是」) 「他們說了哪些不該說的話?」(每個(gè)項(xiàng)目的正確答案都有所變化) 一個(gè)理解性的問題,用于測試對(duì)故事事件的理解(每個(gè)項(xiàng)目的問題都有所不同) 一個(gè)測試對(duì)說話者錯(cuò)誤信念的認(rèn)識(shí)的問題,措辭如下「說話者知道他們所說的不恰當(dāng)嗎?」(每個(gè)項(xiàng)目的問題都會(huì)有所不同,正確答案總是「不」) 這些問題是在講述的同時(shí)提出的。根據(jù)最初的編碼標(biāo)準(zhǔn),被試必須正確回答所有四個(gè)問題,其答案才算正確。 不過,在此研究中,研究者主要關(guān)注的是最后一個(gè)問題的回答情況,該問題測試回答者是否理解了說話者的心理狀態(tài)。 在研究人類數(shù)據(jù)時(shí),研究者注意到有幾位參與者對(duì)第一個(gè)問題的回答是錯(cuò)誤的,原因是他們明顯不愿意歸咎于他人(例如 「不,他沒有說錯(cuò)什么,因?yàn)樗浟恕梗?/span> 因此,為了將重點(diǎn)放在與研究相關(guān)的假說理解的關(guān)鍵方面,研究者只對(duì)最后一個(gè)問題進(jìn)行了編碼。 在此測試中,GPT-4的得分明顯低于人類水平。并且對(duì)特定項(xiàng)目存在孤立的上限效應(yīng)。 GPT-3.5的得分更差,除一次運(yùn)行外,表現(xiàn)幾乎處于下限。 相比之下,Llama 2-70B的表現(xiàn)優(yōu)于人類,除了一次運(yùn)行外,所有運(yùn)行均達(dá)到100%的準(zhǔn)確率。 暗示 暗示任務(wù)通過依次呈現(xiàn)10個(gè)描述日常社交互動(dòng)的小故事來評(píng)估對(duì)間接言語請(qǐng)求的理解。 每個(gè)小故事都以一句可被解釋為暗示的話語結(jié)束。 一個(gè)正確的回答既能指出這句話的本意,也能指出這句話試圖引起的行動(dòng)。 在最初的測試中,如果受試者第一次未能完全回答問題,研究者會(huì)對(duì)他們進(jìn)行額外的提問。 在調(diào)整過后的新方案中,研究者取消了額外的提問。與之前的研究相比,這種編碼方法對(duì)暗示理解能力的估計(jì)更為保守。 在這項(xiàng)測試中,GPT-4的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒有明顯差異,只有Llama 2-70B在該測試中的表現(xiàn)明顯低于人類水平。 奇怪故事 到這里,難度升級(jí)了! 奇怪故事提供了一種測試更高級(jí)心智能力的方法,如推理誤導(dǎo)、操縱、撒謊和誤解,以及二階或高階心理狀態(tài)(例如,甲知道乙相信丙......)。 在這個(gè)測驗(yàn)中,受測者會(huì)看到一個(gè)簡短的小故事,并被要求解釋為什么故事中的人物會(huì)說或做一些字面上不真實(shí)的事情。 GPT-4在該測試中的表現(xiàn)明顯優(yōu)于人類,GPT-3.5的表現(xiàn)與人類沒有明顯差異,而Llama 2-70B的得分明顯低于人類。 過于保守的GPT 根據(jù)以上的試驗(yàn),「失言」是GPT-4無法匹敵或超過人類表現(xiàn)的唯一測試,我們可能會(huì)據(jù)此以為GPT模型難以應(yīng)對(duì)失言。 令人驚訝的是,失言也是唯一一個(gè)Llama 2-70B(在其他項(xiàng)目的表現(xiàn)度最差)得分高于人類的測試。 研究者決定將研究深入下去,提出了3個(gè)假設(shè)。 第一個(gè)假設(shè)是推理失敗假說,即模型無法生成關(guān)于說話者心理狀態(tài)的推論。 第二個(gè)假設(shè)是布里丹之驢假說,模型能夠推斷心理狀態(tài),但無法在它們之間進(jìn)行選擇,就像夾在兩堆等質(zhì)等量的干草之間的理性的驢子,因?yàn)闊o法決定吃哪個(gè)而餓死。 第三個(gè)假設(shè)是超保守主義假設(shè), GPT模型既能夠計(jì)算有關(guān)人物心理狀態(tài)的推論,又知道最有可能的解釋是什么,但它不會(huì)承諾單一的解釋。 為了區(qū)分這些假設(shè),研究者設(shè)計(jì)了一種失言測試的變體。 具體來說,不是問說話者知道還是不知道他冒犯了別人,而是問說話者知道還是不知道的可能性更大,這被稱為「失言可能性測試」。 結(jié)果,在失言可能性測試中,GPT-4表現(xiàn)出了完美的性能,所有響應(yīng)都在沒有任何提示的情況下識(shí)別出說話者更有可能不知道上下文。 GPT-3.5表現(xiàn)出了改進(jìn)的性能,盡管它確實(shí)在少數(shù)情況下需要提示(約3%的項(xiàng)目),并且偶爾無法識(shí)別失言行為(約9%的項(xiàng)目)。 a,兩個(gè)GPT模型在失言問題的原始框架(「他們知道……嗎?」)和可能性框架(「他們知道還是不知道……的可能性更大?」)上的得分b,失言測試的三種變體的反應(yīng)分?jǐn)?shù):失言(粉色)、中性(灰色)和知識(shí)暗示(青色)。 總而言之,這些結(jié)果支持了超保守主義假說,它們表明GPT成功地生成了關(guān)于說話者心理狀態(tài)的推斷,并確定無意冒犯的可能性大于故意侮辱。 因此,GPT一開始未能正確回答問題并不代表推理失敗,也不反映模型在認(rèn)為同樣合理的備選方案中猶豫不決,而是一種過于保守的方法,阻礙了對(duì)最可能的解釋的承諾。 另一方面,Llama 2-70B沒有區(qū)分說話者被暗示知道的情況和沒有信息的情況,這引起了人們的擔(dān)憂,即Llama 2-70B在這項(xiàng)任務(wù)上的完美表現(xiàn)可能是虛幻的。 GPT模型在失言測試及其變體上的失敗和成功模式可能是其底層架構(gòu)的結(jié)果。 除了Transformer之外,GPT模型還包括緩解措施,以提高事實(shí)性并避免用戶過度依賴它們作為來源。 這些措施包括進(jìn)行訓(xùn)練以減少幻覺,失言測試的失敗可能是這些緩解措施驅(qū)動(dòng)下的一種謹(jǐn)慎行為。因?yàn)橥ㄟ^測試需要對(duì)缺乏充分證據(jù)的解釋做出承諾。 這種謹(jǐn)慎也可以解釋不同任務(wù)之間的差異:失言測試和暗示測試都要求從模糊的信息中推測出正確答案。 然而,暗示任務(wù)允許以開放式的方式生成文本,LLM非常適合這種方式,但回答失言測試則需要超越這種推測,以得出結(jié)論。 這些發(fā)現(xiàn)強(qiáng)調(diào)了能力和表現(xiàn)之間的分離,表明GPT模型可能是有能力的。 也就是說,具有計(jì)算類似心智推理的技術(shù)復(fù)雜性,但在不確定的情況下表現(xiàn)與人類不同,人類往往會(huì)極力消除不確定性,但GPT不會(huì)自發(fā)地計(jì)算這些推論以減少不確定性。 參考資料: https://www.nature.com/articles/s41562-024-01882-z https://x.com/emollick/status/1792594588579803191 本文來源:新智元
|
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選