Transformer自問(wèn)世后就大放異彩,但有個(gè)小毛病一直沒(méi)解決: 總愛(ài)把注意力放在不相關(guān)的內(nèi)容上,也就是信噪比低。 現(xiàn)在微軟亞研院、清華團(tuán)隊(duì)出手,提出全新改進(jìn)版Differential Transformer,專治這個(gè)老毛病,引起熱議。 論文中介紹,整體思路類似差分放大電路或降噪耳機(jī),用兩個(gè)信號(hào)的差值來(lái)濾除共模噪聲。 具體到在語(yǔ)言模型中,如果句子很長(zhǎng),只有少數(shù)token會(huì)真正影響當(dāng)前token的含義。而注意力機(jī)制允許每?jī)蓚(gè)詞之間產(chǎn)生交互,其中就包含大量噪聲了。 團(tuán)隊(duì)提出的方法是在注意力層中增加一個(gè)Softmax,然后兩個(gè)Softmax做減法。 這一減,噪音信息就被大幅抵消,讓注意力更集中在相關(guān)內(nèi)容上。 語(yǔ)言建模任務(wù)上的一系列實(shí)驗(yàn)結(jié)果顯示,僅需約65%的模型大小或訓(xùn)練tokens,DIFF Transformer就能達(dá)到與傳統(tǒng)Transformer相當(dāng)?shù)男阅堋?/p> 新架構(gòu)在長(zhǎng)上下文建模、關(guān)鍵信息檢索、減少幻覺(jué)、提高上下文學(xué)習(xí)能力以及減少激活異常值等各項(xiàng)指標(biāo)中,普遍優(yōu)于Transformer架構(gòu)。 論文上傳到arXiv平臺(tái)后,有不少學(xué)者到劃線提問(wèn)。一作Tianzhu Ye正絕贊在線答疑中。 差分Transformer 與傳統(tǒng)Tranformer相比,DIFF Transformer保持宏觀架構(gòu)不變,主要區(qū)別在于用差分注意力替換傳統(tǒng)softmax注意力。 此外還采用了LLaMA系列中的一些改進(jìn),如pre-RMSNorm歸一化和SwiGLU激活函數(shù)。 在差分注意力模塊中,需要先給Q和K分成兩個(gè)組,然后分別計(jì)算softmax。 第二組乘了一個(gè)標(biāo)量λ,是可學(xué)習(xí)的參數(shù),在同一層的注意力頭之間共享。 λ的引入是為了在差分操作中平衡兩組注意力的貢獻(xiàn),使得差分注意力機(jī)制能夠更好地適應(yīng)不同的任務(wù)需求和數(shù)據(jù)分布。 接下來(lái)是一系列實(shí)驗(yàn)結(jié)果。 語(yǔ)言建模評(píng)估在1T tokens上訓(xùn)練3B大小的DIFF Transformer,遵循 StableLM-3B-4E1T的配方,在各種下游任務(wù)中與以前訓(xùn)練良好的Transformer模型相比表現(xiàn)出優(yōu)勢(shì)。 可擴(kuò)展性評(píng)估只需約65%的模型參數(shù)或訓(xùn)練tokens來(lái)匹配Transformer的性能。 長(zhǎng)上下文能力評(píng)估在額外1.5B tokens上訓(xùn)練3B大小的DIFF Transformer,擴(kuò)展上下文長(zhǎng)度至64k。 隨著上下文長(zhǎng)度增加,累計(jì)平均負(fù)對(duì)數(shù)似然(NLL)持續(xù)降低,并且比傳統(tǒng)Transformer的NLL值更低。 表明DIFF Transformer可以有效利用不斷增加的上下文。 關(guān)鍵信息檢索能力評(píng)估也就是多個(gè)“針”的大海撈針試驗(yàn),設(shè)置不同的上下文長(zhǎng)度(4K和64K)來(lái)模擬不同復(fù)雜程度的信息檢索場(chǎng)景。 在4K上下文長(zhǎng)度下,隨著插入 “針” 數(shù)量和查詢數(shù)量的增加,DIFF Transformer的準(zhǔn)確率保持穩(wěn)定,而Transformer 的準(zhǔn)確率顯著下降。 在64K上下文長(zhǎng)度下,DIFF Transformer在不同答案針深度(即關(guān)鍵信息在長(zhǎng)上下文中的位置)和上下文長(zhǎng)度下都能保持穩(wěn)定性能,且在關(guān)鍵信息位于上下文前半部分時(shí)優(yōu)勢(shì)明顯。 特別是當(dāng)關(guān)鍵信息位于25%深度時(shí),DIFF Transformer比Transformer的準(zhǔn)確率提高了 76%。 上下文學(xué)習(xí)能力評(píng)估分為兩個(gè)角度來(lái)評(píng)估,分別是多樣本分類和上下文學(xué)習(xí)的穩(wěn)健性。 多樣本分類任務(wù),同樣使用64K上下文長(zhǎng)度的3B參數(shù)模型,DIFF Transformer的準(zhǔn)確率始終高于Transformer,提升幅度從5.2%到21.6%不等 上下文學(xué)習(xí)穩(wěn)健性采用排列順序任務(wù),DIFF Transformer的結(jié)果方差遠(yuǎn)小于傳統(tǒng)Transformer。 上下文幻覺(jué)評(píng)估主要關(guān)注輸入中包含正確事實(shí),但模型仍然無(wú)法產(chǎn)生準(zhǔn)確輸出的情況。 將模型輸出與ground-truth一起發(fā)給GPT-4o,讓GPT-4o來(lái)判斷是否存在幻覺(jué),此前試驗(yàn)表明GPT-4o與人類評(píng)判結(jié)果一致率較高,相對(duì)可靠。 在不同數(shù)據(jù)集上DIFF Transformer的準(zhǔn)確率更高,幻覺(jué)更少。 激活異常值分析Transformer中的激活異常值,導(dǎo)致模型在訓(xùn)練和推理過(guò)程中難以量化。 試驗(yàn)比較了注意力logits和隱藏狀態(tài)兩種激活類型下的最大激活值,DIFF Transformer都表現(xiàn)出更低的頂部激活值,即產(chǎn)生更少的激活異常值。 在對(duì)注意力logits進(jìn)行量化實(shí)驗(yàn)時(shí),DIFF Transformer在降低比特寬度量化時(shí)仍能保持較高性能,而Transformer在6-bi 量化時(shí)準(zhǔn)確性顯著下降。 4-bit的DIFF Transformer能達(dá)到與6-bit的Transformer相當(dāng)?shù)臏?zhǔn)確性,且比4-bit的Transformer準(zhǔn)確率提高約 25%。 代碼已開(kāi)源, 降噪耳機(jī)類比引熱議 對(duì)于目前讀者的疑問(wèn),作者已做出幾點(diǎn)答復(fù) 問(wèn)題1:Diff Transformer與每個(gè)注意力頭溫度可學(xué)習(xí)的方法有什么不同?與門控注意力對(duì)比如何? 作者回應(yīng)在實(shí)驗(yàn)中,可學(xué)習(xí)溫度效果不大。而本文方法是門控注意力的改進(jìn)。 問(wèn)題2:差分注意力是否意味著將標(biāo)準(zhǔn)注意力矩陣參數(shù)翻倍? 作者澄清,單個(gè)注意力頭維度翻倍,但是注意力頭數(shù)量減半,總體在參數(shù)和FLOPS上都是對(duì)齊的。 問(wèn)題3:第二組Softmax乘可學(xué)習(xí)參數(shù)lambda的研究思路。 作者也做出詳細(xì)回應(yīng)。 DIFF Transformer在純學(xué)術(shù)圈之外也引起非常多的討論,有不少人困惑論文中將方法與降噪耳機(jī)的類比。 降噪耳機(jī)采集環(huán)境噪聲并生成相反的信號(hào),在這種情況下哪些信號(hào)屬于噪聲是已知的,但差分注意力中并不能事先確定哪些是噪聲。 一種解釋是,低注意力分?jǐn)?shù)的噪聲也有很低的梯度,因此模型其實(shí)已知哪些是噪聲,只是單個(gè)Softmax無(wú)法輸出0,所以噪聲很難去除。 也有人提出,比起降噪耳機(jī),其實(shí)專業(yè)音頻中“平衡線”,或者USB、網(wǎng)卡等傳輸方式更適合一些。 使用兩條信號(hào)線傳輸正負(fù)信號(hào),接收器只對(duì)比他們之間的差異,由于在空間中離得很近,受到的干擾是相同的。 有用的正負(fù)信號(hào)相減會(huì)被放大,相同的噪聲相減卻被抵消,大大增強(qiáng)抗干擾能力。 總之,DIFF Transformer代碼已開(kāi)源在微軟unilm項(xiàng)目下,其中還包含魔改版支持差分注意力的FlashAttention-2的代碼。 感興趣的可以試起來(lái)了。
本文來(lái)源:量子位 |
原創(chuàng)欄目
IT百科
網(wǎng)友評(píng)論
聚超值•精選