太平洋科技要聞

首頁 > 科技要聞 > 科技> 正文

大模型在裝傻！谷歌蘋果最新發(fā)現(xiàn)：LLM知道但不告訴你，掌握知識比表現(xiàn)出來的多

新智元整合編輯：太平洋科技發(fā)布于：2024-10-22 17:33

大模型的應(yīng)用歷來受幻覺所擾。

這個(gè)幻覺可以指代LLM產(chǎn)生的任何類型的錯(cuò)誤：事實(shí)不準(zhǔn)確、偏見、常識推理失敗等等。

——是因?yàn)榇竽Ｐ蛯W(xué)半天白學(xué)了嗎？并不是。

近日，來自谷歌和蘋果的研究表明：AI模型掌握的知識比表現(xiàn)出來的更多！

研究人員在LLM內(nèi)部表示上訓(xùn)練分類器，以預(yù)測與生成輸出的真實(shí)性相關(guān)的各種特征。

結(jié)果表明LLM的內(nèi)部狀態(tài)編碼反映出的真實(shí)性信息，比以前認(rèn)識到的要多得多。

這些真實(shí)性信息集中在特定的token中，利用這一屬性可以顯著提高檢測LLM錯(cuò)誤輸出的能力。

雖說這種錯(cuò)誤檢測無法在數(shù)據(jù)集中泛化，但好處是，模型的內(nèi)部表示可用于預(yù)測模型可能犯的錯(cuò)誤類型，從而幫助我們制定緩解錯(cuò)誤的策略。

研究揭示了LLM內(nèi)部編碼和外部行為之間的差異：可能編碼了正確的答案，卻生成了不正確的答案。

——簡單來說就是，LLM它知道，但它不想告訴你！

LLM在裝傻

作者建議將重點(diǎn)從以人類為中心的幻覺解釋轉(zhuǎn)移到以模型為中心的視角，檢查模型的中間激活。

不同于使用RAG或者依賴更強(qiáng)大的LLM judge，本文工作的重點(diǎn)是僅依賴于模型輸出的logits、softmax后的概率和隱藏狀態(tài)的計(jì)算。

錯(cuò)誤檢測器

第一步是確定真實(shí)性信號在LLM中的編碼位置。

假設(shè)我們可以訪問LLM的內(nèi)部狀態(tài)（白盒），但不能訪問任何外部資源（搜索引擎或其他LLM）。

建立一個(gè)數(shù)據(jù)集D，由N個(gè)問題標(biāo)簽對組成，對于每個(gè)問題，提示模型生成響應(yīng)，從而得到一組預(yù)測答案。

接下來，比較LLM生成的回答與正確答案，從而構(gòu)建錯(cuò)誤檢測數(shù)據(jù)集（這一部可由AI代勞）。

實(shí)驗(yàn)選擇了四個(gè)LLM：Mistral-7b，Mistral-7b-instruct-v0.2，Llama3-8b和Llama3-8b-instruct。

作者選取了10個(gè)跨越不同領(lǐng)域和任務(wù)的數(shù)據(jù)集：TriviaQA、HotpotQA（with/without context）、Natural Questions、Winobias、Winogrande、MNLI、Math、IMDB review sentiment analysis和另一個(gè)自制的電影角色數(shù)據(jù)集。

實(shí)驗(yàn)允許無限制地生成響應(yīng)以模擬現(xiàn)實(shí)世界LLM的用法，并貪婪地解碼答案。

性能指標(biāo)

測量ROC曲線下面積以評估錯(cuò)誤檢測器，這能夠反映模型在多個(gè)閾值中區(qū)分陽性和陰性情況的能力，平衡靈敏度（真陽性率）和特異性（假陽性率）。

錯(cuò)誤檢測方法

Majority：始終預(yù)測訓(xùn)練數(shù)據(jù)中最頻繁的標(biāo)簽。
聚合概率/logits：從之前的研究中選取幾種方法，包括計(jì)算這些值的最小值、最大值或平均值。
P（True）：通過提示要求LLM評估其生成的正確性時(shí)。
Probing：在模型的中間激活上訓(xùn)練一個(gè)小分類器，以預(yù)測已處理文本的特征，這里使用線性探測分類器對靜態(tài)token進(jìn)行錯(cuò)誤檢測。

作者認(rèn)為，現(xiàn)有方法忽略了一個(gè)關(guān)鍵的細(xì)節(jié)：用于錯(cuò)誤檢測token的選擇。

研究者通常只關(guān)注最后生成的token或取平均值，然而，由于LLM一般會生成長格式響應(yīng)，這種做法可能會錯(cuò)過重要的部分。

本文中，作者關(guān)注表示確切答案的token（EXACT ANSWER TOKENS），它代表了生成的響應(yīng)中最有意義的部分。

這里將EXACT ANSWER TOKENS定義為，如果修改則會改變答案正確性的token。

實(shí)踐中，作者使用設(shè)置好的instruct模型代勞，來提取確切答案。之后，通過簡單的搜索過程確定對應(yīng)的token。

重點(diǎn)關(guān)注4個(gè)特定token：第一個(gè)確切答案的token及其前一個(gè)token、最后一個(gè)確切答案token及其后一個(gè)token。

作者廣泛分析了層和token選擇對分類器的激活提取的影響，通過系統(tǒng)地探測模型的所有層，從最后一個(gè)問題token開始，一直到最終生成的token。

上圖顯示了Mistral-7b-Struct中各個(gè)層和token關(guān)于探測的AUC指標(biāo)。雖然一些數(shù)據(jù)集似乎更容易進(jìn)行錯(cuò)誤預(yù)測，但所有數(shù)據(jù)集都表現(xiàn)出一致的真實(shí)性編碼模式，中后期層通常會產(chǎn)生最有效的探測結(jié)果。

通過比較使用和不使用EXACT ANSWER TOKENS的性能，來評估各種錯(cuò)誤檢測方法，上表展示了三個(gè)代表性數(shù)據(jù)集上的AUC。

不同任務(wù)中的泛化

了解錯(cuò)誤檢測器在不同任務(wù)中的泛化能力，對于實(shí)際應(yīng)用程序至關(guān)重要。

上圖（a）顯示了Mistral-7b-instruct的泛化結(jié)果，大于0.5的值表示泛化成功。乍一看，大多數(shù)熱圖值超過了0.5，似乎任務(wù)之間存在一定程度的泛化。

然而事實(shí)上，大部分性能可以通過基于logit的真度檢測來實(shí)現(xiàn)。圖（b）顯示了從最強(qiáng)的基于Logit的基線（Logit-min-exact）中減去結(jié)果后的相同熱圖。

這表示檢測器的泛化程度很少超過僅依賴Logit所能達(dá)到的效果。所以，泛化并不源于真實(shí)性的內(nèi)部編碼，而是反映了已經(jīng)通過logits等外部特征訪問的信息。

經(jīng)過訓(xùn)練的探測分類器可以預(yù)測錯(cuò)誤，但其泛化能力只發(fā)生在需要相似技能的任務(wù)（如事實(shí)檢索）中。

對于涉及不同技能的任務(wù)，例如情感分析，探測分類器與基于logit的不確定性預(yù)測器效果差不多。