太平洋科技要聞

百川新模型超GPT-4o近20%，首創(chuàng)自約束訓(xùn)練方案突破瓶頸，主打「領(lǐng)域增強(qiáng)」

量子位整合編輯：太平洋科技發(fā)布于：2024-12-24 17:39

大模型的競速賽，正站在通用底座的基礎(chǔ)上，掀起“領(lǐng)域增強(qiáng)”風(fēng)暴。

剛剛就出現(xiàn)了個(gè)最直觀的例子：金融領(lǐng)域大模型王座，它易主了！

新王是誰？突然出現(xiàn)的全鏈路金融領(lǐng)域增強(qiáng)大模型Baichuan4-Finance，榜單成績非常亮眼，專業(yè)性和可用性行業(yè)第一。

背后的力氣和手段，就是領(lǐng)域增強(qiáng)方案。

劃個(gè)重點(diǎn)，它真的非常值得大家好好琢磨琢磨！因?yàn)锽aichuan4-Finance是百川智能全鏈條領(lǐng)域增強(qiáng)方案在金融領(lǐng)域的成果，該方案也可以成功遷移運(yùn)用在其它領(lǐng)域，比如醫(yī)療、教育、法律……一通百通。

而將方案率先在金融領(lǐng)域落地，這就是其背后大模型公司百川智能最直接的實(shí)踐。

量子位獲悉，Baichuan4-Finance之所以能取得這樣的成績，主要原因是其全鏈路領(lǐng)域增強(qiáng)方案中包括有高質(zhì)量數(shù)據(jù)、在模型訓(xùn)練過程中首創(chuàng)了自約束訓(xùn)練方案，在微調(diào)階段也做了大量增強(qiáng)工作。

本著客觀和理性的精神，我們還是老規(guī)矩，把模型和方案一點(diǎn)點(diǎn)掰開，一起來看——

開閉源Benchmark實(shí)測：超GPT-4o近20%

百川公布了一系列Baichuan4-Finance的榜單成績，整體來看，該模型在金融類開/閉源benchmark上均表現(xiàn)出色。

出色到什么地步呢？

這么說吧，它能當(dāng)會計(jì)、能當(dāng)交易員、能當(dāng)精算師，純純的金融行業(yè)全能大通才。

先來看開源的金融benchmark，F(xiàn)inanceIQ。

簡單介紹下，F(xiàn)inanceIQ是金融領(lǐng)域的中文評估數(shù)據(jù)集，涵蓋10個(gè)金融大類和36個(gè)金融小類，總計(jì)7173個(gè)單項(xiàng)選擇題。它的重點(diǎn)是評估大模型在金融場景下的知識和推理能力。

Baichuan4-Finance位列榜首，整體準(zhǔn)確率達(dá)79.23%，而GPT-4o是66.25%。

也就是說Baichuan4-Finance領(lǐng)先了GPT-4o約13%。

然后來看閉源的金融benchmark，F(xiàn)LAME。

FLAME（Financial Large-Language Model Assessment and Metrics Evaluation）是人大財(cái)政金融學(xué)院在本月17日發(fā)布的金融評測體系，兼顧專業(yè)性和實(shí)用性，由兩個(gè)方向的評測基準(zhǔn)組成。

第一個(gè)是FLAME-Cer，主要面向模型的金融專業(yè)能力評測，覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認(rèn)證。

在FLAME-Cer上，Baichuan4-Finance整體準(zhǔn)確率93.16%，一舉奪魁，超出GPT-4o近20%；在銀行、基金、證券等多個(gè)資格認(rèn)證領(lǐng)域，該模型的準(zhǔn)確率均突破了95%。

第二個(gè)是FLAME-Sce，它側(cè)重模型的場景應(yīng)用能力，包含10個(gè)一級核心金融業(yè)務(wù)場景，21個(gè)二級細(xì)分金融業(yè)務(wù)場景，近百個(gè)三級金融應(yīng)用任務(wù)。

FLAME-Sce評測中，Baichuan4-Finance的整體可用率也是行業(yè)最高。

其中，一級核心金融業(yè)務(wù)場景的模型整體可用率達(dá)84.15%，金融數(shù)據(jù)計(jì)算、金融知識理論等應(yīng)用場景的可用率更是超過90%。

從榜單成績來看，Baichuan4-Finance的精確度和可靠性都在同類模型中脫穎而出，一定程度上表現(xiàn)了其在金融知識領(lǐng)域的深厚積累與專業(yè)素養(yǎng)。

但老話說得好，“盡信書不如無書”，咱們也不能拿榜單當(dāng)唯一的評判標(biāo)準(zhǔn)。

還是得上手看效果（認(rèn)真臉.jpg）。

量子位一連三測，咱們來看：

金融行話解釋

Prompt：以下是一個(gè)金融行業(yè)常用的術(shù)語（黑話），請對這個(gè)術(shù)語進(jìn)行解釋：技術(shù)性違約。

Baichuan4-Finance的回答如下圖。

GPT-4o的回答如下圖。

最直觀的感受，Baichuan4-Finance的回答更長更豐富，GPT-4o的回答較為簡短。

仔細(xì)閱讀后不難發(fā)現(xiàn)，Baichuan4-Finance不僅詳細(xì)闡述了名詞概念，還從違反合同條款、觸發(fā)條件、后果、解決方式等多個(gè)維度來解釋“技術(shù)性違約”，輔以功能意義和使用場景，帶舉例的那種。

邏輯也清晰，有助于讀者全面理解這一概念。

GPT-4o內(nèi)容較為簡單，雖然有案例簡單例舉，但提供的信息量確實(shí)比不上前者。

業(yè)務(wù)應(yīng)對

Prompt：銀行在發(fā)現(xiàn)哪些情況時(shí)，應(yīng)將單位銀行結(jié)算賬戶的網(wǎng)上銀行轉(zhuǎn)賬功能關(guān)閉，并要求存款人到銀行網(wǎng)點(diǎn)柜臺辦理轉(zhuǎn)賬業(yè)務(wù)?

Baichuan4-Finance的回答如下圖，結(jié)合了相關(guān)《通知》的規(guī)定。

更適合中國寶寶體質(zhì)～

GPT-4o的回答如下。

倒也列舉了一些情況，但是沒有結(jié)合實(shí)際條款，比較空泛，也不知是否符合相關(guān)規(guī)定。

基于財(cái)務(wù)報(bào)表的財(cái)務(wù)指標(biāo)提取

Prompt（主要）：你是一位專業(yè)的財(cái)務(wù)數(shù)據(jù)分析師，負(fù)責(zé)從提供的已知的財(cái)務(wù)報(bào)表中抽取特定信息。你的任務(wù)是針對用戶提出的問題，從財(cái)務(wù)報(bào)表中提取相關(guān)數(shù)據(jù)。最終問題是“截至2024年3月底，淘寶和天貓集團(tuán)的調(diào)整后EBITA是多少？”

在prompt里，我們附加了輸出結(jié)果需要遵守的“原則遵循”：

準(zhǔn)確性：嚴(yán)格基于“財(cái)務(wù)報(bào)表”進(jìn)行信息抽取，確保所有數(shù)據(jù)的準(zhǔn)確無誤。

完整性：如果“財(cái)務(wù)報(bào)表”中包含用戶問題所需的所有數(shù)據(jù)，則提供完整的答案；如果缺少信息，則在相應(yīng)的字段中留空。

輸出格式：以JSON形式輸出抽取的信息，確保易于閱讀和理解。

以及這里附上和prompt一起喂過去的財(cái)務(wù)報(bào)表OCR文本。

Baichuan4-Finance的回答如下。

GPT-4o的回答如下。

這一局GPT雖然也給出了準(zhǔn)確答案，但帶了額外的文字總結(jié)；Baichuan4-Finance更符合“以JSON形式輸出抽取的信息”這一約束條件。

綜合所有測試結(jié)果來看（包括沒有放進(jìn)來的一些其它c(diǎn)ase），Baichuan4-Finance確實(shí)不容小覷，且穩(wěn)定性很強(qiáng)。

行業(yè)首創(chuàng)領(lǐng)域自約束訓(xùn)練方案

接下來就是咱們的必問題環(huán)節(jié)，訓(xùn)出這么強(qiáng)的Baichuan4-Finance，百川是怎么做到的？

百川智能給出的答案是，拿訓(xùn)練階段的三步走來說話。

哪三步？

訓(xùn)練數(shù)據(jù)準(zhǔn)備——模型post-pretrain——模型微調(diào)。

（先預(yù)告下，其中的第二階段含有一個(gè)非常妙的首創(chuàng)性策略）

階段1：訓(xùn)練數(shù)據(jù)準(zhǔn)備

第一階段訓(xùn)練數(shù)據(jù)準(zhǔn)備，又可細(xì)分成數(shù)據(jù)收集和數(shù)據(jù)處理兩個(gè)步驟。

Baichuan4-Finance涵蓋的數(shù)據(jù)集如表格所示，既包含核心專業(yè)金融知識數(shù)據(jù)，也覆蓋了實(shí)踐應(yīng)用類數(shù)據(jù)，為提升模型金融能力提供了良好的底層支撐。

而且為了保證模型基礎(chǔ)能力，團(tuán)隊(duì)特意在訓(xùn)練過程引入了更高精的通用數(shù)據(jù)混合訓(xùn)練，確保該模型既能理論扎實(shí)，又能實(shí)踐過硬，不會只紙上談兵。

值得一提的是，在數(shù)據(jù)收集階段，百川在金融專家團(tuán)隊(duì)的專業(yè)指導(dǎo)下，構(gòu)建了一個(gè)全面、嚴(yán)謹(jǐn)、高質(zhì)量的金融領(lǐng)域訓(xùn)練數(shù)據(jù)體系。

數(shù)據(jù)框架設(shè)計(jì)：由專家團(tuán)隊(duì)規(guī)劃整體數(shù)據(jù)架構(gòu)，確保知識體系的完整性和專業(yè)性；

高質(zhì)量數(shù)據(jù)圈定：依托專家團(tuán)隊(duì)的學(xué)術(shù)洞見，精準(zhǔn)定位優(yōu)質(zhì)數(shù)據(jù)源；

專業(yè)數(shù)據(jù)標(biāo)注：在專家團(tuán)隊(duì)指導(dǎo)下進(jìn)行專業(yè)化標(biāo)注，確保數(shù)據(jù)質(zhì)量；

知識體系審核：由專家團(tuán)隊(duì)把控知識準(zhǔn)確性，驗(yàn)證數(shù)據(jù)價(jià)值。

一整個(gè)就是「學(xué)術(shù)權(quán)威背書+體系化知識結(jié)構(gòu)+嚴(yán)格的質(zhì)量保障」，齊活了。

數(shù)據(jù)處理這一步，百川采用了智能數(shù)據(jù)去噪技術(shù)、高效數(shù)據(jù)去重機(jī)制、嚴(yán)格數(shù)據(jù)脫敏等，還建立了一套完整的數(shù)據(jù)處理體系。

展開來說，首先基于樣本可讀性、知識密度等多個(gè)維度對單個(gè)樣本進(jìn)行初步評分；其次，根據(jù)不同數(shù)據(jù)來源的特點(diǎn)，設(shè)定差異化的評估維度權(quán)重進(jìn)行二次評分；最后，通過深度學(xué)習(xí)模型對多維度評分進(jìn)行回歸分析，得出樣本的最終質(zhì)量分。

這個(gè)體系不僅確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量，更通過創(chuàng)新的評估體系和配比優(yōu)化系統(tǒng)，很好地支持了模型性能的卓越度。

階段2：模型post-pretrain

第二階段，來到了模型post-pretrain。

先敲黑板，在訓(xùn)練行業(yè)領(lǐng)域大模型時(shí)，業(yè)界目前的普遍做法是通用訓(xùn)練語料與領(lǐng)域數(shù)據(jù)相結(jié)合的CPT的訓(xùn)練方式。

這個(gè)訓(xùn)練方法可用，但伴隨著2個(gè)關(guān)鍵挑戰(zhàn)。

一是如何確定最優(yōu)的數(shù)據(jù)混合比例，包括領(lǐng)域內(nèi)不同類型數(shù)據(jù)的配比以及領(lǐng)域數(shù)據(jù)與通用數(shù)據(jù)的融合比例；二是如何選擇合適的訓(xùn)練策略，在課程學(xué)習(xí)、固定配比訓(xùn)練以及結(jié)合退火實(shí)驗(yàn)等方案中找到最佳方案。

在大量實(shí)驗(yàn)后，百川發(fā)現(xiàn)傳統(tǒng)固定配比的直接訓(xùn)練方式存在明顯缺陷：隨著訓(xùn)練的深入，模型的金融領(lǐng)域能力雖然不斷提升，但通用能力卻顯著下降。

考慮到金融領(lǐng)域包含諸多不同場景，模型的泛化能力至關(guān)重要，因此百川為訓(xùn)練過程首提了一種創(chuàng)新性的策略——

領(lǐng)域自約束的訓(xùn)練方案+“l(fā)oss scaling law + metric scaling law”雙重預(yù)測推演過程。

以此保證模型通用能力不下降，領(lǐng)域能力提升。

領(lǐng)域自約束的訓(xùn)練方案是啥？一種提升模型垂域泛化能力、又不降低通用能力的訓(xùn)練策略。

這么說吧，在模型CPT過程中，領(lǐng)域知識的直接引入會破壞原有base model的訓(xùn)練分布，因此直接基于領(lǐng)域數(shù)據(jù)或者混合通用領(lǐng)域這兩種方案進(jìn)行訓(xùn)練，必然會讓通用能力下降。

于是，不想破壞通用能力的百川團(tuán)隊(duì)就提出了個(gè)新的訓(xùn)練方案，稱之為“領(lǐng)域自約束”。

具體來說，是在基礎(chǔ)領(lǐng)域模型訓(xùn)練過程中構(gòu)建一個(gè)和基礎(chǔ)模型同參且參數(shù)不更新的“reference model”，來指導(dǎo)模型訓(xùn)練的過程不要跑偏，從而達(dá)到「通用能力不降，領(lǐng)域能力穩(wěn)定增長」的效果。

△在小模型上進(jìn)行領(lǐng)域自約束的推演實(shí)驗(yàn)結(jié)果

Attention Please！

領(lǐng)域自約束的訓(xùn)練方案，百川從很早之前就一直在研究和迭代。

Baichuan4-Finance只是百川把領(lǐng)域自約束的訓(xùn)練方案運(yùn)用在金融行業(yè)的一個(gè)落地案例，這個(gè)方案實(shí)際上也有泛化性，適配任何一個(gè)垂直領(lǐng)域和行業(yè)，包括但不限于醫(yī)療、教育……

至于“l(fā)oss scaling law + metric scaling law”雙重預(yù)測推演過程，來源是醬嬸兒的：

百川團(tuán)隊(duì)在小參數(shù)量模型上了進(jìn)行多組參數(shù)、多組數(shù)據(jù)配比實(shí)驗(yàn)，獲取了足夠的數(shù)據(jù)配比到domain loss的曲線樣本，從而構(gòu)建了配比到loss的回歸模型。

然后再根據(jù)domain loss到自建的通用指標(biāo)體系和金融知識體系的對應(yīng)關(guān)系，構(gòu)建了domain loss到模型最終優(yōu)化目標(biāo)的回歸模型。

通過上述兩個(gè)模型，團(tuán)隊(duì)實(shí)現(xiàn)了從參數(shù)配比到訓(xùn)練目標(biāo)以及結(jié)果的推演過程，從而達(dá)到了動(dòng)態(tài)監(jiān)控和模擬模型訓(xùn)練趨勢。

以下是采用訓(xùn)練預(yù)測方案獲取的配比數(shù)據(jù)訓(xùn)練出來的模型，整體效果在通用能力上領(lǐng)先通用base model效果的結(jié)果：

在模型post-pretrain過程中，百川團(tuán)隊(duì)還完成了多維度測試集合，也就是在每個(gè)檢查點(diǎn)（checkpoint）進(jìn)行全方位能力測試。

涵蓋了通用知識能力、通用應(yīng)用能力、金融知識能力、金融應(yīng)用能力等。

綜合起來，這套訓(xùn)練和評估方案，確保了模型在金融專業(yè)領(lǐng)域的強(qiáng)勁實(shí)力，并且維持了其跨領(lǐng)域的通用性能穩(wěn)定不變。

階段3:模型微調(diào)

最后的模型微調(diào)階段，主要采用了進(jìn)行有監(jiān)督微調(diào)（SFT）和強(qiáng)化學(xué)習(xí)策略（RLHF）。

進(jìn)行SFT，是為了優(yōu)化模型在特定金融任務(wù)上的表現(xiàn)；而RLHF主要是為了進(jìn)一步提升模型性能。

這里不展開贅述，但嚴(yán)謹(jǐn)起見，還是取RLHF在數(shù)學(xué)能力上的表現(xiàn)為例。

從下圖可以看到：

數(shù)學(xué)增強(qiáng)-PPO版本（Baichuan4-Finance）> 數(shù)學(xué)增強(qiáng)-SFT版本（Baichuan4-Finance w/o PPO）> 非數(shù)學(xué)增強(qiáng)-SFT版本（Baichuan4-Finance-Base-SFT）。

回頭看沒做強(qiáng)化時(shí)（藍(lán)色曲線），模型Pass@1和pass@5結(jié)果的準(zhǔn)確率產(chǎn)生了較大的差異化，這樣表明模型本身在各個(gè)數(shù)學(xué)能力項(xiàng)上依然有很大的潛力。

而做完強(qiáng)化后（橙色曲線），模型在數(shù)學(xué)方面的能力有了很大的提升，且提升趨勢和潛力趨勢（藍(lán)色曲線）呈正相關(guān)。

因此這表明，強(qiáng)化學(xué)習(xí)的引入，能讓模型在數(shù)學(xué)這類答案聚焦的問題上性能表現(xiàn)的更好。

全方位提升金融行業(yè)價(jià)值

在攻克了「通用能力與泛化能力的平衡」這一模型在垂直領(lǐng)域應(yīng)用的主要難題后，Baichuan4-Finance就能大展身手了，得以在多維度為金融行業(yè)實(shí)現(xiàn)全面價(jià)值的提升增強(qiáng)。

效率優(yōu)化層面：模型能夠智能處理文檔審核、客戶咨詢、產(chǎn)品營銷等大量日常工作，顯著提升運(yùn)營效率，釋放人力資源。

風(fēng)控合規(guī)方面：依托深厚的金融專業(yè)知識和法律法規(guī)理解能力，能為機(jī)構(gòu)提供精準(zhǔn)的風(fēng)險(xiǎn)識別和合規(guī)保障。

客戶服務(wù)層面：依托模型強(qiáng)大的多輪對話理解和金融專業(yè)知識問答能力，通過7*24小時(shí)的智能響應(yīng)和個(gè)性化服務(wù)，全面提升客戶體驗(yàn)與滿意度。

決策支持方面：基于模型強(qiáng)大的數(shù)據(jù)分析能力，能夠?yàn)楣芾韺犹峁⿲I(yè)的市場洞察和決策建議，助力機(jī)構(gòu)實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型和業(yè)務(wù)創(chuàng)新。

某商業(yè)銀行信用卡中心，每日需處理數(shù)十萬通客戶咨詢，業(yè)務(wù)高峰期更是忙得不可開交。

基于Baichuan4-Finance搭建智能客服解決方案后，該中心充分利用了模型在金融專業(yè)知識和多輪對話方面的優(yōu)勢。

系統(tǒng)可準(zhǔn)確理解客戶意圖，自動(dòng)回答包括賬單分期、額度調(diào)整、優(yōu)惠活動(dòng)、積分兌換等常見業(yè)務(wù)咨詢，并可結(jié)合客戶實(shí)際需求進(jìn)行精準(zhǔn)的產(chǎn)品推薦；而針對復(fù)雜問題，模型可進(jìn)行多輪對話澄清，確保準(zhǔn)確理解客戶需求。

同時(shí)，系統(tǒng)還可基于實(shí)時(shí)交互場景，結(jié)合用戶畫像，提供個(gè)性化的解決方案和產(chǎn)品建議，并在涉及敏感信息時(shí)進(jìn)行智能脫敏處理。

結(jié)果就是，現(xiàn)在該中心有7*24小時(shí)準(zhǔn)確的即時(shí)響應(yīng)，客戶等待時(shí)間縮短80%，還減少了40%的人工成本，預(yù)期可提升30%的產(chǎn)品轉(zhuǎn)化率。

再比如，某保險(xiǎn)公司運(yùn)用Baichuan4-Finance打造智能營銷輔助系統(tǒng)，將產(chǎn)品匹配準(zhǔn)確率提升了50%；還預(yù)計(jì)可降低30%的獲客成本；通過個(gè)性化營銷策略，預(yù)期可將產(chǎn)品轉(zhuǎn)化率提升40%，實(shí)現(xiàn)養(yǎng)老理財(cái)產(chǎn)品精準(zhǔn)營銷。

而且，在所有的實(shí)際應(yīng)用中，由于能時(shí)刻在線，多輪對話能力強(qiáng)大，專業(yè)知識儲備雄厚，為用戶提供個(gè)性化服務(wù)，所有用上了Baichuan4-Finance的機(jī)構(gòu)，以往使用傳統(tǒng)人工客服參與環(huán)節(jié)中可能出現(xiàn)的響應(yīng)速度慢、服務(wù)質(zhì)量不穩(wěn)定、專業(yè)知識儲備不足等痛點(diǎn)，統(tǒng)統(tǒng)被解決。

前面我們提到過，Baichuan4-Finance是百川行業(yè)首創(chuàng)領(lǐng)域自約束訓(xùn)練方案在金融這個(gè)領(lǐng)域的落地體現(xiàn)。從以上具體效果、數(shù)據(jù)和口碑反饋可以看出：

這方案有用、好用，首戰(zhàn)告捷。

而百川的下一步，必然是以自家基座大模型打底，瞄準(zhǔn)各個(gè)領(lǐng)域、行業(yè)，逐一進(jìn)行“領(lǐng)域增強(qiáng)”。

與此同時(shí)，百川自己的大模型生態(tài)體系也在過去的近兩年時(shí)間內(nèi)，逐步搭建起來——

已經(jīng)服務(wù)數(shù)千家客戶，包括北電數(shù)智、完美世界游戲、愛奇藝、360集團(tuán)、生學(xué)教育、愛學(xué)堂等各行各業(yè)的領(lǐng)頭羊；合作多家行業(yè)生態(tài)伙伴，如信雅達(dá)、用友、軟通動(dòng)力、新致軟件、達(dá)觀數(shù)據(jù)、華勝天成等；還攜手了中國移動(dòng)、中國電信、中國聯(lián)通等運(yùn)營商。

回過頭看，Baichuan4-Finance的發(fā)布，不僅標(biāo)志著百川智能技術(shù)策略的領(lǐng)先地位、首創(chuàng)方案的實(shí)用價(jià)值，見證了通用模型泛化到垂直領(lǐng)域的巨大價(jià)值。

更預(yù)示著，2025年起，大模型的能力，將在更多行業(yè)和領(lǐng)域內(nèi)產(chǎn)生更為深刻長遠(yuǎn)的滲透和影響。

FLAME GitHub地址：

https://github.com/FLAME-ruc/FLAME/tree/main

本文來源：量子位

Baichuan4-Finance 領(lǐng)域增強(qiáng) 大模型

量子位

原創(chuàng)欄目