首頁(yè) > 科技要聞 > 科技> 正文

微軟清華改進(jìn)Transformer:用降噪耳機(jī)原理升級(jí)注意力,一作在線答疑

量子位 整合編輯:太平洋科技 發(fā)布于:2024-11-04 16:40

Transformer自問(wèn)世后就大放異彩,但有個(gè)小毛病一直沒(méi)解決:

總愛(ài)把注意力放在不相關(guān)的內(nèi)容上,也就是信噪比低

現(xiàn)在微軟亞研院、清華團(tuán)隊(duì)出手,提出全新改進(jìn)版Differential Transformer,專治這個(gè)老毛病,引起熱議。

論文中介紹,整體思路類似差分放大電路或降噪耳機(jī),用兩個(gè)信號(hào)的差值來(lái)濾除共模噪聲。

具體到在語(yǔ)言模型中,如果句子很長(zhǎng),只有少數(shù)token會(huì)真正影響當(dāng)前token的含義。而注意力機(jī)制允許每?jī)蓚(gè)詞之間產(chǎn)生交互,其中就包含大量噪聲了。

團(tuán)隊(duì)提出的方法是在注意力層中增加一個(gè)Softmax,然后兩個(gè)Softmax做減法。

這一減,噪音信息就被大幅抵消,讓注意力更集中在相關(guān)內(nèi)容上。

語(yǔ)言建模任務(wù)上的一系列實(shí)驗(yàn)結(jié)果顯示,僅需約65%的模型大小或訓(xùn)練tokens,DIFF Transformer就能達(dá)到與傳統(tǒng)Transformer相當(dāng)?shù)男阅堋?/p>

新架構(gòu)在長(zhǎng)上下文建模、關(guān)鍵信息檢索、減少幻覺(jué)、提高上下文學(xué)習(xí)能力以及減少激活異常值等各項(xiàng)指標(biāo)中,普遍優(yōu)于Transformer架構(gòu)。

論文上傳到arXiv平臺(tái)后,有不少學(xué)者到劃線提問(wèn)。一作Tianzhu Ye正絕贊在線答疑中。

差分Transformer

與傳統(tǒng)Tranformer相比,DIFF Transformer保持宏觀架構(gòu)不變,主要區(qū)別在于用差分注意力替換傳統(tǒng)softmax注意力。

此外還采用了LLaMA系列中的一些改進(jìn),如pre-RMSNorm歸一化和SwiGLU激活函數(shù)。

在差分注意力模塊中,需要先給Q和K分成兩個(gè)組,然后分別計(jì)算softmax。

第二組乘了一個(gè)標(biāo)量λ,是可學(xué)習(xí)的參數(shù),在同一層的注意力頭之間共享。

λ的引入是為了在差分操作中平衡兩組注意力的貢獻(xiàn),使得差分注意力機(jī)制能夠更好地適應(yīng)不同的任務(wù)需求和數(shù)據(jù)分布。

接下來(lái)是一系列實(shí)驗(yàn)結(jié)果。

語(yǔ)言建模評(píng)估

在1T tokens上訓(xùn)練3B大小的DIFF Transformer,遵循 StableLM-3B-4E1T的配方,在各種下游任務(wù)中與以前訓(xùn)練良好的Transformer模型相比表現(xiàn)出優(yōu)勢(shì)。

可擴(kuò)展性評(píng)估

只需約65%的模型參數(shù)或訓(xùn)練tokens來(lái)匹配Transformer的性能。

長(zhǎng)上下文能力評(píng)估

在額外1.5B tokens上訓(xùn)練3B大小的DIFF Transformer,擴(kuò)展上下文長(zhǎng)度至64k。

隨著上下文長(zhǎng)度增加,累計(jì)平均負(fù)對(duì)數(shù)似然(NLL)持續(xù)降低,并且比傳統(tǒng)Transformer的NLL值更低。

表明DIFF Transformer可以有效利用不斷增加的上下文。

關(guān)鍵信息檢索能力評(píng)估

也就是多個(gè)“針”的大海撈針試驗(yàn),設(shè)置不同的上下文長(zhǎng)度(4K和64K)來(lái)模擬不同復(fù)雜程度的信息檢索場(chǎng)景。

在4K上下文長(zhǎng)度下,隨著插入 “針” 數(shù)量和查詢數(shù)量的增加,DIFF Transformer的準(zhǔn)確率保持穩(wěn)定,而Transformer 的準(zhǔn)確率顯著下降。

在64K上下文長(zhǎng)度下,DIFF Transformer在不同答案針深度(即關(guān)鍵信息在長(zhǎng)上下文中的位置)和上下文長(zhǎng)度下都能保持穩(wěn)定性能,且在關(guān)鍵信息位于上下文前半部分時(shí)優(yōu)勢(shì)明顯。

特別是當(dāng)關(guān)鍵信息位于25%深度時(shí),DIFF Transformer比Transformer的準(zhǔn)確率提高了 76%。

上下文學(xué)習(xí)能力評(píng)估

分為兩個(gè)角度來(lái)評(píng)估,分別是多樣本分類和上下文學(xué)習(xí)的穩(wěn)健性。

多樣本分類任務(wù),同樣使用64K上下文長(zhǎng)度的3B參數(shù)模型,DIFF Transformer的準(zhǔn)確率始終高于Transformer,提升幅度從5.2%到21.6%不等

上下文學(xué)習(xí)穩(wěn)健性采用排列順序任務(wù),DIFF Transformer的結(jié)果方差遠(yuǎn)小于傳統(tǒng)Transformer。

上下文幻覺(jué)評(píng)估

主要關(guān)注輸入中包含正確事實(shí),但模型仍然無(wú)法產(chǎn)生準(zhǔn)確輸出的情況。

將模型輸出與ground-truth一起發(fā)給GPT-4o,讓GPT-4o來(lái)判斷是否存在幻覺(jué),此前試驗(yàn)表明GPT-4o與人類評(píng)判結(jié)果一致率較高,相對(duì)可靠。

在不同數(shù)據(jù)集上DIFF Transformer的準(zhǔn)確率更高,幻覺(jué)更少。

激活異常值分析

Transformer中的激活異常值,導(dǎo)致模型在訓(xùn)練和推理過(guò)程中難以量化。

試驗(yàn)比較了注意力logits和隱藏狀態(tài)兩種激活類型下的最大激活值,DIFF Transformer都表現(xiàn)出更低的頂部激活值,即產(chǎn)生更少的激活異常值。

在對(duì)注意力logits進(jìn)行量化實(shí)驗(yàn)時(shí),DIFF Transformer在降低比特寬度量化時(shí)仍能保持較高性能,而Transformer在6-bi 量化時(shí)準(zhǔn)確性顯著下降。

4-bit的DIFF Transformer能達(dá)到與6-bit的Transformer相當(dāng)?shù)臏?zhǔn)確性,且比4-bit的Transformer準(zhǔn)確率提高約 25%。

代碼已開(kāi)源, 降噪耳機(jī)類比引熱議

對(duì)于目前讀者的疑問(wèn),作者已做出幾點(diǎn)答復(fù)

問(wèn)題1:Diff Transformer與每個(gè)注意力頭溫度可學(xué)習(xí)的方法有什么不同?與門控注意力對(duì)比如何?

作者回應(yīng)在實(shí)驗(yàn)中,可學(xué)習(xí)溫度效果不大。而本文方法是門控注意力的改進(jìn)。

問(wèn)題2:差分注意力是否意味著將標(biāo)準(zhǔn)注意力矩陣參數(shù)翻倍?

作者澄清,單個(gè)注意力頭維度翻倍,但是注意力頭數(shù)量減半,總體在參數(shù)和FLOPS上都是對(duì)齊的。

問(wèn)題3:第二組Softmax乘可學(xué)習(xí)參數(shù)lambda的研究思路。

作者也做出詳細(xì)回應(yīng)。

DIFF Transformer在純學(xué)術(shù)圈之外也引起非常多的討論,有不少人困惑論文中將方法與降噪耳機(jī)的類比。

降噪耳機(jī)采集環(huán)境噪聲并生成相反的信號(hào),在這種情況下哪些信號(hào)屬于噪聲是已知的,但差分注意力中并不能事先確定哪些是噪聲。

一種解釋是,低注意力分?jǐn)?shù)的噪聲也有很低的梯度,因此模型其實(shí)已知哪些是噪聲,只是單個(gè)Softmax無(wú)法輸出0,所以噪聲很難去除。

也有人提出,比起降噪耳機(jī),其實(shí)專業(yè)音頻中“平衡線”,或者USB、網(wǎng)卡等傳輸方式更適合一些。

使用兩條信號(hào)線傳輸正負(fù)信號(hào),接收器只對(duì)比他們之間的差異,由于在空間中離得很近,受到的干擾是相同的。

有用的正負(fù)信號(hào)相減會(huì)被放大,相同的噪聲相減卻被抵消,大大增強(qiáng)抗干擾能力。

總之,DIFF Transformer代碼已開(kāi)源在微軟unilm項(xiàng)目下,其中還包含魔改版支持差分注意力的FlashAttention-2的代碼。

感興趣的可以試起來(lái)了。

本文來(lái)源:量子位

量子位

網(wǎng)友評(píng)論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來(lái)
二維碼 回到頂部