大模型的競速賽,正站在通用底座的基礎(chǔ)上,掀起“領(lǐng)域增強(qiáng)”風(fēng)暴。 剛剛就出現(xiàn)了個(gè)最直觀的例子:金融領(lǐng)域大模型王座,它易主了! 新王是誰?突然出現(xiàn)的全鏈路金融領(lǐng)域增強(qiáng)大模型Baichuan4-Finance,榜單成績非常亮眼,專業(yè)性和可用性行業(yè)第一。 背后的力氣和手段,就是領(lǐng)域增強(qiáng)方案。 劃個(gè)重點(diǎn),它真的非常值得大家好好琢磨琢磨!因?yàn)锽aichuan4-Finance是百川智能全鏈條領(lǐng)域增強(qiáng)方案在金融領(lǐng)域的成果,該方案也可以成功遷移運(yùn)用在其它領(lǐng)域,比如醫(yī)療、教育、法律……一通百通。 而將方案率先在金融領(lǐng)域落地,這就是其背后大模型公司百川智能最直接的實(shí)踐。 量子位獲悉,Baichuan4-Finance之所以能取得這樣的成績,主要原因是其全鏈路領(lǐng)域增強(qiáng)方案中包括有高質(zhì)量數(shù)據(jù)、在模型訓(xùn)練過程中首創(chuàng)了自約束訓(xùn)練方案,在微調(diào)階段也做了大量增強(qiáng)工作。 本著客觀和理性的精神,我們還是老規(guī)矩,把模型和方案一點(diǎn)點(diǎn)掰開,一起來看—— 開閉源Benchmark實(shí)測:超GPT-4o近20% 百川公布了一系列Baichuan4-Finance的榜單成績,整體來看,該模型在金融類開/閉源benchmark上均表現(xiàn)出色。 出色到什么地步呢? 這么說吧,它能當(dāng)會計(jì)、能當(dāng)交易員、能當(dāng)精算師,純純的金融行業(yè)全能大通才。 先來看開源的金融benchmark,F(xiàn)inanceIQ。 簡單介紹下,F(xiàn)inanceIQ是金融領(lǐng)域的中文評估數(shù)據(jù)集,涵蓋10個(gè)金融大類和36個(gè)金融小類,總計(jì)7173個(gè)單項(xiàng)選擇題。它的重點(diǎn)是評估大模型在金融場景下的知識和推理能力。 Baichuan4-Finance位列榜首,整體準(zhǔn)確率達(dá)79.23%,而GPT-4o是66.25%。 也就是說Baichuan4-Finance領(lǐng)先了GPT-4o約13%。 然后來看閉源的金融benchmark,F(xiàn)LAME。 FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大財(cái)政金融學(xué)院在本月17日發(fā)布的金融評測體系,兼顧專業(yè)性和實(shí)用性,由兩個(gè)方向的評測基準(zhǔn)組成。 第一個(gè)是FLAME-Cer,主要面向模型的金融專業(yè)能力評測,覆蓋了CPA、CFA、FRM等14類權(quán)威金融資格認(rèn)證。 在FLAME-Cer上,Baichuan4-Finance整體準(zhǔn)確率93.16%,一舉奪魁,超出GPT-4o近20%;在銀行、基金、證券等多個(gè)資格認(rèn)證領(lǐng)域,該模型的準(zhǔn)確率均突破了95%。 第二個(gè)是FLAME-Sce,它側(cè)重模型的場景應(yīng)用能力,包含10個(gè)一級核心金融業(yè)務(wù)場景,21個(gè)二級細(xì)分金融業(yè)務(wù)場景,近百個(gè)三級金融應(yīng)用任務(wù)。 FLAME-Sce評測中,Baichuan4-Finance的整體可用率也是行業(yè)最高。 其中,一級核心金融業(yè)務(wù)場景的模型整體可用率達(dá)84.15%,金融數(shù)據(jù)計(jì)算、金融知識理論等應(yīng)用場景的可用率更是超過90%。 從榜單成績來看,Baichuan4-Finance的精確度和可靠性都在同類模型中脫穎而出,一定程度上表現(xiàn)了其在金融知識領(lǐng)域的深厚積累與專業(yè)素養(yǎng)。 但老話說得好,“盡信書不如無書”,咱們也不能拿榜單當(dāng)唯一的評判標(biāo)準(zhǔn)。 還是得上手看效果(認(rèn)真臉.jpg)。 量子位一連三測,咱們來看: 金融行話解釋 Prompt:以下是一個(gè)金融行業(yè)常用的術(shù)語(黑話),請對這個(gè)術(shù)語進(jìn)行解釋:技術(shù)性違約。 Baichuan4-Finance的回答如下圖。 GPT-4o的回答如下圖。 最直觀的感受,Baichuan4-Finance的回答更長更豐富,GPT-4o的回答較為簡短。 仔細(xì)閱讀后不難發(fā)現(xiàn),Baichuan4-Finance不僅詳細(xì)闡述了名詞概念,還從違反合同條款、觸發(fā)條件、后果、解決方式等多個(gè)維度來解釋“技術(shù)性違約”,輔以功能意義和使用場景,帶舉例的那種。 邏輯也清晰,有助于讀者全面理解這一概念。 GPT-4o內(nèi)容較為簡單,雖然有案例簡單例舉,但提供的信息量確實(shí)比不上前者。 業(yè)務(wù)應(yīng)對 Prompt:銀行在發(fā)現(xiàn)哪些情況時(shí),應(yīng)將單位銀行結(jié)算賬戶的網(wǎng)上銀行轉(zhuǎn)賬功能關(guān)閉,并要求存款人到銀行網(wǎng)點(diǎn)柜臺辦理轉(zhuǎn)賬業(yè)務(wù)? Baichuan4-Finance的回答如下圖,結(jié)合了相關(guān)《通知》的規(guī)定。 更適合中國寶寶體質(zhì)~ GPT-4o的回答如下。 倒也列舉了一些情況,但是沒有結(jié)合實(shí)際條款,比較空泛,也不知是否符合相關(guān)規(guī)定。 基于財(cái)務(wù)報(bào)表的財(cái)務(wù)指標(biāo)提取 Prompt(主要):你是一位專業(yè)的財(cái)務(wù)數(shù)據(jù)分析師,負(fù)責(zé)從提供的已知的財(cái)務(wù)報(bào)表中抽取特定信息。你的任務(wù)是針對用戶提出的問題,從財(cái)務(wù)報(bào)表中提取相關(guān)數(shù)據(jù)。最終問題是“截至2024年3月底,淘寶和天貓集團(tuán)的調(diào)整后EBITA是多少?” 在prompt里,我們附加了輸出結(jié)果需要遵守的“原則遵循”: 準(zhǔn)確性:嚴(yán)格基于“財(cái)務(wù)報(bào)表”進(jìn)行信息抽取,確保所有數(shù)據(jù)的準(zhǔn)確無誤。 完整性:如果“財(cái)務(wù)報(bào)表”中包含用戶問題所需的所有數(shù)據(jù),則提供完整的答案;如果缺少信息,則在相應(yīng)的字段中留空。 輸出格式:以JSON形式輸出抽取的信息,確保易于閱讀和理解。 以及這里附上和prompt一起喂過去的財(cái)務(wù)報(bào)表OCR文本。 Baichuan4-Finance的回答如下。 GPT-4o的回答如下。 這一局GPT雖然也給出了準(zhǔn)確答案,但帶了額外的文字總結(jié);Baichuan4-Finance更符合“以JSON形式輸出抽取的信息”這一約束條件。 綜合所有測試結(jié)果來看(包括沒有放進(jìn)來的一些其它c(diǎn)ase),Baichuan4-Finance確實(shí)不容小覷,且穩(wěn)定性很強(qiáng)。 行業(yè)首創(chuàng)領(lǐng)域自約束訓(xùn)練方案 接下來就是咱們的必問題環(huán)節(jié),訓(xùn)出這么強(qiáng)的Baichuan4-Finance,百川是怎么做到的? 百川智能給出的答案是,拿訓(xùn)練階段的三步走來說話。 哪三步? 訓(xùn)練數(shù)據(jù)準(zhǔn)備——模型post-pretrain——模型微調(diào)。 (先預(yù)告下,其中的第二階段含有一個(gè)非常妙的首創(chuàng)性策略) 階段1:訓(xùn)練數(shù)據(jù)準(zhǔn)備 第一階段訓(xùn)練數(shù)據(jù)準(zhǔn)備,又可細(xì)分成數(shù)據(jù)收集和數(shù)據(jù)處理兩個(gè)步驟。 Baichuan4-Finance涵蓋的數(shù)據(jù)集如表格所示,既包含核心專業(yè)金融知識數(shù)據(jù),也覆蓋了實(shí)踐應(yīng)用類數(shù)據(jù),為提升模型金融能力提供了良好的底層支撐。 而且為了保證模型基礎(chǔ)能力,團(tuán)隊(duì)特意在訓(xùn)練過程引入了更高精的通用數(shù)據(jù)混合訓(xùn)練,確保該模型既能理論扎實(shí),又能實(shí)踐過硬,不會只紙上談兵。 值得一提的是,在數(shù)據(jù)收集階段,百川在金融專家團(tuán)隊(duì)的專業(yè)指導(dǎo)下,構(gòu)建了一個(gè)全面、嚴(yán)謹(jǐn)、高質(zhì)量的金融領(lǐng)域訓(xùn)練數(shù)據(jù)體系。 數(shù)據(jù)框架設(shè)計(jì):由專家團(tuán)隊(duì)規(guī)劃整體數(shù)據(jù)架構(gòu),確保知識體系的完整性和專業(yè)性; 高質(zhì)量數(shù)據(jù)圈定:依托專家團(tuán)隊(duì)的學(xué)術(shù)洞見,精準(zhǔn)定位優(yōu)質(zhì)數(shù)據(jù)源; 專業(yè)數(shù)據(jù)標(biāo)注:在專家團(tuán)隊(duì)指導(dǎo)下進(jìn)行專業(yè)化標(biāo)注,確保數(shù)據(jù)質(zhì)量; 知識體系審核:由專家團(tuán)隊(duì)把控知識準(zhǔn)確性,驗(yàn)證數(shù)據(jù)價(jià)值。 一整個(gè)就是「學(xué)術(shù)權(quán)威背書+體系化知識結(jié)構(gòu)+嚴(yán)格的質(zhì)量保障」,齊活了。 數(shù)據(jù)處理這一步,百川采用了智能數(shù)據(jù)去噪技術(shù)、高效數(shù)據(jù)去重機(jī)制、嚴(yán)格數(shù)據(jù)脫敏等,還建立了一套完整的數(shù)據(jù)處理體系。 展開來說,首先基于樣本可讀性、知識密度等多個(gè)維度對單個(gè)樣本進(jìn)行初步評分;其次,根據(jù)不同數(shù)據(jù)來源的特點(diǎn),設(shè)定差異化的評估維度權(quán)重進(jìn)行二次評分;最后,通過深度學(xué)習(xí)模型對多維度評分進(jìn)行回歸分析,得出樣本的最終質(zhì)量分。 這個(gè)體系不僅確保了訓(xùn)練數(shù)據(jù)的高質(zhì)量,更通過創(chuàng)新的評估體系和配比優(yōu)化系統(tǒng),很好地支持了模型性能的卓越度。 階段2:模型post-pretrain 第二階段,來到了模型post-pretrain。 先敲黑板,在訓(xùn)練行業(yè)領(lǐng)域大模型時(shí),業(yè)界目前的普遍做法是通用訓(xùn)練語料與領(lǐng)域數(shù)據(jù)相結(jié)合的CPT的訓(xùn)練方式。 這個(gè)訓(xùn)練方法可用,但伴隨著2個(gè)關(guān)鍵挑戰(zhàn)。 一是如何確定最優(yōu)的數(shù)據(jù)混合比例,包括領(lǐng)域內(nèi)不同類型數(shù)據(jù)的配比以及領(lǐng)域數(shù)據(jù)與通用數(shù)據(jù)的融合比例;二是如何選擇合適的訓(xùn)練策略,在課程學(xué)習(xí)、固定配比訓(xùn)練以及結(jié)合退火實(shí)驗(yàn)等方案中找到最佳方案。 在大量實(shí)驗(yàn)后,百川發(fā)現(xiàn)傳統(tǒng)固定配比的直接訓(xùn)練方式存在明顯缺陷:隨著訓(xùn)練的深入,模型的金融領(lǐng)域能力雖然不斷提升,但通用能力卻顯著下降。 考慮到金融領(lǐng)域包含諸多不同場景,模型的泛化能力至關(guān)重要,因此百川為訓(xùn)練過程首提了一種創(chuàng)新性的策略—— 領(lǐng)域自約束的訓(xùn)練方案+“l(fā)oss scaling law + metric scaling law”雙重預(yù)測推演過程。 以此保證模型通用能力不下降,領(lǐng)域能力提升。 領(lǐng)域自約束的訓(xùn)練方案是啥?一種提升模型垂域泛化能力、又不降低通用能力的訓(xùn)練策略。 這么說吧,在模型CPT過程中,領(lǐng)域知識的直接引入會破壞原有base model的訓(xùn)練分布,因此直接基于領(lǐng)域數(shù)據(jù)或者混合通用領(lǐng)域這兩種方案進(jìn)行訓(xùn)練,必然會讓通用能力下降。 于是,不想破壞通用能力的百川團(tuán)隊(duì)就提出了個(gè)新的訓(xùn)練方案,稱之為“領(lǐng)域自約束”。 具體來說,是在基礎(chǔ)領(lǐng)域模型訓(xùn)練過程中構(gòu)建一個(gè)和基礎(chǔ)模型同參且參數(shù)不更新的“reference model”,來指導(dǎo)模型訓(xùn)練的過程不要跑偏,從而達(dá)到「通用能力不降,領(lǐng)域能力穩(wěn)定增長」的效果。
|
原創(chuàng)欄目
IT百科
網(wǎng)友評論
聚超值•精選