首頁 > 科技要聞 > 科技> 正文

百川新模型超GPT-4o近20%,首創(chuàng)自約束訓(xùn)練方案突破瓶頸,主打「領(lǐng)域增強(qiáng)」

量子位 整合編輯:太平洋科技 發(fā)布于:2024-12-24 17:39

大模型的競速賽,正站在通用底座的基礎(chǔ)上,掀起“領(lǐng)域增強(qiáng)”風(fēng)暴。

剛剛就出現(xiàn)了個(gè)最直觀的例子:金融領(lǐng)域大模型王座,它易主了!

新王是誰?突然出現(xiàn)的全鏈路金融領(lǐng)域增強(qiáng)大模型Baichuan4-Finance,榜單成績非常亮眼,專業(yè)性和可用性行業(yè)第一。

背后的力氣和手段,就是領(lǐng)域增強(qiáng)方案。

劃個(gè)重點(diǎn),它真的非常值得大家好好琢磨琢磨!因?yàn)锽aichuan4-Finance是百川智能全鏈條領(lǐng)域增強(qiáng)方案在金融領(lǐng)域的成果,該方案也可以成功遷移運(yùn)用在其它領(lǐng)域,比如醫(yī)療、教育、法律……一通百通。

而將方案率先在金融領(lǐng)域落地,這就是其背后大模型公司百川智能最直接的實(shí)踐。

量子位獲悉,Baichuan4-Finance之所以能取得這樣的成績,主要原因是其全鏈路領(lǐng)域增強(qiáng)方案中包括有高質(zhì)量數(shù)據(jù)、在模型訓(xùn)練過程中首創(chuàng)了自約束訓(xùn)練方案,在微調(diào)階段也做了大量增強(qiáng)工作。

本著客觀和理性的精神,我們還是老規(guī)矩,把模型和方案一點(diǎn)點(diǎn)掰開,一起來看——

開閉源Benchmark實(shí)測:超GPT-4o近20%

百川公布了一系列Baichuan4-Finance的榜單成績,整體來看,該模型在金融類開/閉源benchmark上均表現(xiàn)出色。

出色到什么地步呢?

這么說吧,它能當(dāng)會計(jì)、能當(dāng)交易員、能當(dāng)精算師,純純的金融行業(yè)全能大通才。

先來看開源的金融benchmark,F(xiàn)inanceIQ。

簡單介紹下,F(xiàn)inanceIQ是金融領(lǐng)域的中文評估數(shù)據(jù)集,涵蓋10個(gè)金融大類和36個(gè)金融小類,總計(jì)7173個(gè)單項(xiàng)選擇題。它的重點(diǎn)是評估大模型在金融場景下的知識和推理能力。

Baichuan4-Finance位列榜首,整體準(zhǔn)確率達(dá)79.23%,而GPT-4o是66.25%。

也就是說Baichuan4-Finance領(lǐng)先了GPT-4o約13%。

然后來看閉源的金融benchmark,F(xiàn)LAME。

FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大財(cái)政金融學(xué)院在本月17日發(fā)布的金融評測體系,兼顧專業(yè)性和實(shí)用性,由兩個(gè)方向的評測基準(zhǔn)組成。

第一個(gè)是FLAME-Cer,主要面向模型的金融專業(yè)能力評測,覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認(rèn)證。

在FLAME-Cer上,Baichuan4-Finance整體準(zhǔn)確率93.16%,一舉奪魁,超出GPT-4o近20%;在銀行、基金、證券等多個(gè)資格認(rèn)證領(lǐng)域,該模型的準(zhǔn)確率均突破了95%。

第二個(gè)是FLAME-Sce,它側(cè)重模型的場景應(yīng)用能力,包含10個(gè)一級核心金融業(yè)務(wù)場景,21個(gè)二級細(xì)分金融業(yè)務(wù)場景,近百個(gè)三級金融應(yīng)用任務(wù)。

FLAME-Sce評測中,Baichuan4-Finance的整體可用率也是行業(yè)最高。

其中,一級核心金融業(yè)務(wù)場景的模型整體可用率達(dá)84.15%,金融數(shù)據(jù)計(jì)算、金融知識理論等應(yīng)用場景的可用率更是超過90%。

從榜單成績來看,Baichuan4-Finance的精確度和可靠性都在同類模型中脫穎而出,一定程度上表現(xiàn)了其在金融知識領(lǐng)域的深厚積累與專業(yè)素養(yǎng)。

但老話說得好,“盡信書不如無書”,咱們也不能拿榜單當(dāng)唯一的評判標(biāo)準(zhǔn)。

還是得上手看效果(認(rèn)真臉.jpg)。

量子位一連三測,咱們來看:

金融行話解釋

Prompt:以下是一個(gè)金融行業(yè)常用的術(shù)語(黑話),請對這個(gè)術(shù)語進(jìn)行解釋:技術(shù)性違約。

Baichuan4-Finance的回答如下圖。

GPT-4o的回答如下圖。

最直觀的感受,Baichuan4-Finance的回答更長更豐富,GPT-4o的回答較為簡短。

仔細(xì)閱讀后不難發(fā)現(xiàn),Baichuan4-Finance不僅詳細(xì)闡述了名詞概念,還從違反合同條款、觸發(fā)條件、后果、解決方式等多個(gè)維度來解釋“技術(shù)性違約”,輔以功能意義和使用場景,帶舉例的那種。

邏輯也清晰,有助于讀者全面理解這一概念。

GPT-4o內(nèi)容較為簡單,雖然有案例簡單例舉,但提供的信息量確實(shí)比不上前者。

業(yè)務(wù)應(yīng)對

Prompt:銀行在發(fā)現(xiàn)哪些情況時(shí),應(yīng)將單位銀行結(jié)算賬戶的網(wǎng)上銀行轉(zhuǎn)賬功能關(guān)閉,并要求存款人到銀行網(wǎng)點(diǎn)柜臺辦理轉(zhuǎn)賬業(yè)務(wù)?

Baichuan4-Finance的回答如下圖,結(jié)合了相關(guān)《通知》的規(guī)定。

更適合中國寶寶體質(zhì)~

GPT-4o的回答如下。

倒也列舉了一些情況,但是沒有結(jié)合實(shí)際條款,比較空泛,也不知是否符合相關(guān)規(guī)定。

基于財(cái)務(wù)報(bào)表的財(cái)務(wù)指標(biāo)提取

Prompt(主要)你是一位專業(yè)的財(cái)務(wù)數(shù)據(jù)分析師,負(fù)責(zé)從提供的已知的財(cái)務(wù)報(bào)表中抽取特定信息。你的任務(wù)是針對用戶提出的問題,從財(cái)務(wù)報(bào)表中提取相關(guān)數(shù)據(jù)。最終問題是“截至2024年3月底,淘寶和天貓集團(tuán)的調(diào)整后EBITA是多少?”

在prompt里,我們附加了輸出結(jié)果需要遵守的“原則遵循”:

準(zhǔn)確性:嚴(yán)格基于“財(cái)務(wù)報(bào)表”進(jìn)行信息抽取,確保所有數(shù)據(jù)的準(zhǔn)確無誤。

完整性:如果“財(cái)務(wù)報(bào)表”中包含用戶問題所需的所有數(shù)據(jù),則提供完整的答案;如果缺少信息,則在相應(yīng)的字段中留空。

輸出格式:以JSON形式輸出抽取的信息,確保易于閱讀和理解。

以及這里附上和prompt一起喂過去的財(cái)務(wù)報(bào)表OCR文本。

Baichuan4-Finance的回答如下。

GPT-4o的回答如下。

這一局GPT雖然也給出了準(zhǔn)確答案,但帶了額外的文字總結(jié);Baichuan4-Finance更符合“以JSON形式輸出抽取的信息”這一約束條件。

綜合所有測試結(jié)果來看(包括沒有放進(jìn)來的一些其它c(diǎn)ase),Baichuan4-Finance確實(shí)不容小覷,且穩(wěn)定性很強(qiáng)。

行業(yè)首創(chuàng)領(lǐng)域自約束訓(xùn)練方案

接下來就是咱們的必問題環(huán)節(jié),訓(xùn)出這么強(qiáng)的Baichuan4-Finance,百川是怎么做到的?

百川智能給出的答案是,拿訓(xùn)練階段的三步走來說話。

哪三步?

訓(xùn)練數(shù)據(jù)準(zhǔn)備——模型post-pretrain——模型微調(diào)。

(先預(yù)告下,其中的第二階段含有一個(gè)非常妙的首創(chuàng)性策略)

階段1:訓(xùn)練數(shù)據(jù)準(zhǔn)備

第一階段訓(xùn)練數(shù)據(jù)準(zhǔn)備,又可細(xì)分成數(shù)據(jù)收集和數(shù)據(jù)處理兩個(gè)步驟。

Baichuan4-Finance涵蓋的數(shù)據(jù)集如表格所示,既包含核心專業(yè)金融知識數(shù)據(jù),也覆蓋了實(shí)踐應(yīng)用類數(shù)據(jù),為提升模型金融能力提供了良好的底層支撐。

而且為了保證模型基礎(chǔ)能力,團(tuán)隊(duì)特意在訓(xùn)練過程引入了更高精的通用數(shù)據(jù)混合訓(xùn)練,確保該模型既能理論扎實(shí),又能實(shí)踐過硬,不會只紙上談兵。

值得一提的是,在數(shù)據(jù)收集階段,百川在金融專家團(tuán)隊(duì)的專業(yè)指導(dǎo)下,構(gòu)建了一個(gè)全面、嚴(yán)謹(jǐn)、高質(zhì)量的金融領(lǐng)域訓(xùn)練數(shù)據(jù)體系。

數(shù)據(jù)框架設(shè)計(jì):由專家團(tuán)隊(duì)規(guī)劃整體數(shù)據(jù)架構(gòu),確保知識體系的完整性和專業(yè)性;

高質(zhì)量數(shù)據(jù)圈定:依托專家團(tuán)隊(duì)的學(xué)術(shù)洞見,精準(zhǔn)定位優(yōu)質(zhì)數(shù)據(jù)源;

專業(yè)數(shù)據(jù)標(biāo)注:在專家團(tuán)隊(duì)指導(dǎo)下進(jìn)行專業(yè)化標(biāo)注,確保數(shù)據(jù)質(zhì)量;

知識體系審核:由專家團(tuán)隊(duì)把控知識準(zhǔn)確性,驗(yàn)證數(shù)據(jù)價(jià)值。

一整個(gè)就是「學(xué)術(shù)權(quán)威背書+體系化知識結(jié)構(gòu)+嚴(yán)格的質(zhì)量保障」,齊活了。

數(shù)據(jù)處理這一步,百川采用了智能數(shù)據(jù)去噪技術(shù)、高效數(shù)據(jù)去重機(jī)制、嚴(yán)格數(shù)據(jù)脫敏等,還建立了一套完整的數(shù)據(jù)處理體系。

展開來說,首先基于樣本可讀性、知識密度等多個(gè)維度對單個(gè)樣本進(jìn)行初步評分;其次,根據(jù)不同數(shù)據(jù)來源的特點(diǎn),設(shè)定差異化的評估維度權(quán)重進(jìn)行二次評分;最后,通過深度學(xué)習(xí)模型對多維度評分進(jìn)行回歸分析,得出樣本的最終質(zhì)量分。

這個(gè)體系不僅確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,更通過創(chuàng)新的評估體系和配比優(yōu)化系統(tǒng),很好地支持了模型性能的卓越度。

階段2:模型post-pretrain

第二階段,來到了模型post-pretrain。

先敲黑板,在訓(xùn)練行業(yè)領(lǐng)域大模型時(shí),業(yè)界目前的普遍做法是通用訓(xùn)練語料與領(lǐng)域數(shù)據(jù)相結(jié)合的CPT的訓(xùn)練方式。

這個(gè)訓(xùn)練方法可用,但伴隨著2個(gè)關(guān)鍵挑戰(zhàn)。

一是如何確定最優(yōu)的數(shù)據(jù)混合比例,包括領(lǐng)域內(nèi)不同類型數(shù)據(jù)的配比以及領(lǐng)域數(shù)據(jù)與通用數(shù)據(jù)的融合比例;二是如何選擇合適的訓(xùn)練策略,在課程學(xué)習(xí)、固定配比訓(xùn)練以及結(jié)合退火實(shí)驗(yàn)等方案中找到最佳方案。

在大量實(shí)驗(yàn)后,百川發(fā)現(xiàn)傳統(tǒng)固定配比的直接訓(xùn)練方式存在明顯缺陷:隨著訓(xùn)練的深入,模型的金融領(lǐng)域能力雖然不斷提升,但通用能力卻顯著下降。

考慮到金融領(lǐng)域包含諸多不同場景,模型的泛化能力至關(guān)重要,因此百川為訓(xùn)練過程首提了一種創(chuàng)新性的策略——

領(lǐng)域自約束的訓(xùn)練方案+“l(fā)oss scaling law + metric scaling law”雙重預(yù)測推演過程。

以此保證模型通用能力不下降,領(lǐng)域能力提升。

領(lǐng)域自約束的訓(xùn)練方案是啥?一種提升模型垂域泛化能力、又不降低通用能力的訓(xùn)練策略。

這么說吧,在模型CPT過程中,領(lǐng)域知識的直接引入會破壞原有base model的訓(xùn)練分布,因此直接基于領(lǐng)域數(shù)據(jù)或者混合通用領(lǐng)域這兩種方案進(jìn)行訓(xùn)練,必然會讓通用能力下降。

于是,不想破壞通用能力的百川團(tuán)隊(duì)就提出了個(gè)新的訓(xùn)練方案,稱之為“領(lǐng)域自約束”。

具體來說,是在基礎(chǔ)領(lǐng)域模型訓(xùn)練過程中構(gòu)建一個(gè)和基礎(chǔ)模型同參且參數(shù)不更新的“reference model”,來指導(dǎo)模型訓(xùn)練的過程不要跑偏,從而達(dá)到「通用能力不降,領(lǐng)域能力穩(wěn)定增長」的效果


在小模型上進(jìn)行領(lǐng)域自約束的推演實(shí)驗(yàn)結(jié)果

Attention Please!

領(lǐng)域自約束的訓(xùn)練方案,百川從很早之前就一直在研究和迭代。

Baichuan4-Finance只是百川把領(lǐng)域自約束的訓(xùn)練方案運(yùn)用在金融行業(yè)的一個(gè)落地案例,這個(gè)方案實(shí)際上也有泛化性,適配任何一個(gè)垂直領(lǐng)域和行業(yè),包括但不限于醫(yī)療、教育……

至于“l(fā)oss scaling law + metric scaling law”雙重預(yù)測推演過程,來源是醬嬸兒的:

百川團(tuán)隊(duì)在小參數(shù)量模型上了進(jìn)行多組參數(shù)、多組數(shù)據(jù)配比實(shí)驗(yàn),獲取了足夠的數(shù)據(jù)配比到domain loss的曲線樣本,從而構(gòu)建了配比到loss的回歸模型。

然后再根據(jù)domain loss到自建的通用指標(biāo)體系和金融知識體系的對應(yīng)關(guān)系,構(gòu)建了domain loss到模型最終優(yōu)化目標(biāo)的回歸模型。

通過上述兩個(gè)模型,團(tuán)隊(duì)實(shí)現(xiàn)了從參數(shù)配比到訓(xùn)練目標(biāo)以及結(jié)果的推演過程,從而達(dá)到了動(dòng)態(tài)監(jiān)控和模擬模型訓(xùn)練趨勢。

以下是采用訓(xùn)練預(yù)測方案獲取的配比數(shù)據(jù)訓(xùn)練出來的模型,整體效果在通用能力上領(lǐng)先通用base model效果的結(jié)果:

在模型post-pretrain過程中,百川團(tuán)隊(duì)還完成了多維度測試集合,也就是在每個(gè)檢查點(diǎn)(checkpoint)進(jìn)行全方位能力測試。

涵蓋了通用知識能力、通用應(yīng)用能力、金融知識能力、金融應(yīng)用能力等。

綜合起來,這套訓(xùn)練和評估方案,確保了模型在金融專業(yè)領(lǐng)域的強(qiáng)勁實(shí)力,并且維持了其跨領(lǐng)域的通用性能穩(wěn)定不變。

階段3:模型微調(diào)

最后的模型微調(diào)階段,主要采用了進(jìn)行有監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)策略(RLHF)。

進(jìn)行SFT,是為了優(yōu)化模型在特定金融任務(wù)上的表現(xiàn);而RLHF主要是為了進(jìn)一步提升模型性能。

這里不展開贅述,但嚴(yán)謹(jǐn)起見,還是取RLHF在數(shù)學(xué)能力上的表現(xiàn)為例

從下圖可以看到:

數(shù)學(xué)增強(qiáng)-PPO版本(Baichuan4-Finance)> 數(shù)學(xué)增強(qiáng)-SFT版本(Baichuan4-Finance w/o PPO)> 非數(shù)學(xué)增強(qiáng)-SFT版本(Baichuan4-Finance-Base-SFT)。

回頭看沒做強(qiáng)化時(shí)(藍(lán)色曲線),模型Pass@1和pass@5結(jié)果的準(zhǔn)確率產(chǎn)生了較大的差異化,這樣表明模型本身在各個(gè)數(shù)學(xué)能力項(xiàng)上依然有很大的潛力。

做完強(qiáng)化后(橙色曲線),模型在數(shù)學(xué)方面的能力有了很大的提升,且提升趨勢和潛力趨勢(藍(lán)色曲線)呈正相關(guān)。

因此這表明,強(qiáng)化學(xué)習(xí)的引入,能讓模型在數(shù)學(xué)這類答案聚焦的問題上性能表現(xiàn)的更好。

全方位提升金融行業(yè)價(jià)值

在攻克了「通用能力與泛化能力的平衡」這一模型在垂直領(lǐng)域應(yīng)用的主要難題后,Baichuan4-Finance就能大展身手了,得以在多維度為金融行業(yè)實(shí)現(xiàn)全面價(jià)值的提升增強(qiáng)。

效率優(yōu)化層面:模型能夠智能處理文檔審核、客戶咨詢、產(chǎn)品營銷等大量日常工作,顯著提升運(yùn)營效率,釋放人力資源。

風(fēng)控合規(guī)方面:依托深厚的金融專業(yè)知識和法律法規(guī)理解能力,能為機(jī)構(gòu)提供精準(zhǔn)的風(fēng)險(xiǎn)識別和合規(guī)保障。

客戶服務(wù)層面:依托模型強(qiáng)大的多輪對話理解和金融專業(yè)知識問答能力,通過7*24小時(shí)的智能響應(yīng)和個(gè)性化服務(wù),全面提升客戶體驗(yàn)與滿意度。

決策支持方面:基于模型強(qiáng)大的數(shù)據(jù)分析能力,能夠?yàn)楣芾韺犹峁⿲I(yè)的市場洞察和決策建議,助力機(jī)構(gòu)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新。

某商業(yè)銀行信用卡中心,每日需處理數(shù)十萬通客戶咨詢,業(yè)務(wù)高峰期更是忙得不可開交。

基于Baichuan4-Finance搭建智能客服解決方案后,該中心充分利用了模型在金融專業(yè)知識和多輪對話方面的優(yōu)勢。

系統(tǒng)可準(zhǔn)確理解客戶意圖自動(dòng)回答包括賬單分期、額度調(diào)整、優(yōu)惠活動(dòng)、積分兌換等常見業(yè)務(wù)咨詢,并可結(jié)合客戶實(shí)際需求進(jìn)行精準(zhǔn)的產(chǎn)品推薦;而針對復(fù)雜問題,模型可進(jìn)行多輪對話澄清,確保準(zhǔn)確理解客戶需求。

同時(shí),系統(tǒng)還可基于實(shí)時(shí)交互場景,結(jié)合用戶畫像,提供個(gè)性化的解決方案和產(chǎn)品建議,并在涉及敏感信息時(shí)進(jìn)行智能脫敏處理。

結(jié)果就是,現(xiàn)在該中心有7*24小時(shí)準(zhǔn)確的即時(shí)響應(yīng),客戶等待時(shí)間縮短80%,還減少了40%的人工成本,預(yù)期可提升30%的產(chǎn)品轉(zhuǎn)化率。

再比如,某保險(xiǎn)公司運(yùn)用Baichuan4-Finance打造智能營銷輔助系統(tǒng),將產(chǎn)品匹配準(zhǔn)確率提升了50%;還預(yù)計(jì)可降低30%的獲客成本;通過個(gè)性化營銷策略,預(yù)期可將產(chǎn)品轉(zhuǎn)化率提升40%,實(shí)現(xiàn)養(yǎng)老理財(cái)產(chǎn)品精準(zhǔn)營銷。

而且,在所有的實(shí)際應(yīng)用中,由于能時(shí)刻在線,多輪對話能力強(qiáng)大,專業(yè)知識儲備雄厚,為用戶提供個(gè)性化服務(wù),所有用上了Baichuan4-Finance的機(jī)構(gòu),以往使用傳統(tǒng)人工客服參與環(huán)節(jié)中可能出現(xiàn)的響應(yīng)速度慢、服務(wù)質(zhì)量不穩(wěn)定、專業(yè)知識儲備不足等痛點(diǎn),統(tǒng)統(tǒng)被解決。

前面我們提到過,Baichuan4-Finance是百川行業(yè)首創(chuàng)領(lǐng)域自約束訓(xùn)練方案在金融這個(gè)領(lǐng)域的落地體現(xiàn)。從以上具體效果、數(shù)據(jù)和口碑反饋可以看出:

這方案有用、好用,首戰(zhàn)告捷。

而百川的下一步,必然是以自家基座大模型打底,瞄準(zhǔn)各個(gè)領(lǐng)域、行業(yè),逐一進(jìn)行“領(lǐng)域增強(qiáng)”。

與此同時(shí),百川自己的大模型生態(tài)體系也在過去的近兩年時(shí)間內(nèi),逐步搭建起來——

已經(jīng)服務(wù)數(shù)千家客戶,包括北電數(shù)智、完美世界游戲、愛奇藝、360集團(tuán)、生學(xué)教育、愛學(xué)堂等各行各業(yè)的領(lǐng)頭羊;合作多家行業(yè)生態(tài)伙伴,如信雅達(dá)、用友、軟通動(dòng)力、新致軟件、達(dá)觀數(shù)據(jù)、華勝天成等;還攜手了中國移動(dòng)、中國電信、中國聯(lián)通等運(yùn)營商。

回過頭看,Baichuan4-Finance的發(fā)布,不僅標(biāo)志著百川智能技術(shù)策略的領(lǐng)先地位、首創(chuàng)方案的實(shí)用價(jià)值,見證了通用模型泛化到垂直領(lǐng)域的巨大價(jià)值。

更預(yù)示著,2025年起,大模型的能力,將在更多行業(yè)和領(lǐng)域內(nèi)產(chǎn)生更為深刻長遠(yuǎn)的滲透和影響。

FLAME GitHub地址:

https://github.com/FLAME-ruc/FLAME/tree/main

本文來源:量子位

網(wǎng)友評論

聚超值•精選

推薦 手機(jī) 筆記本 影像 硬件 家居 商用 企業(yè) 出行 未來
二維碼 回到頂部