百川新模型超GPT-4o近20%，首創自約束訓練方案突破瓶頸，主打「領網域增強」

今天小編分享的科學經驗：百川新模型超GPT-4o近20%，首創自約束訓練方案突破瓶頸，主打「領網域增強」，歡迎閱讀。

大模型的競速賽，正站在通用底座的基礎上，掀起" 領網域增強 "風暴。

剛剛就出現了個最直觀的例子：金融領網域大模型王座，它易主了！

新王是誰？突然出現的全鏈路金融領網域增強大模型 Baichuan4-Finance，榜單成績非常亮眼，專業性和可用性行業第一。

背後的力氣和手段，就是領網域增強方案。

劃個重點，它真的非常值得大家好好琢磨琢磨！因為 Baichuan4-Finance 是百川智能全鏈條領網域增強方案在金融領網域的成果，該方案也可以成功遷移運用在其它領網域，比如醫療、教育、法律……一通百通。

而将方案率先在金融領網域落地，這就是其背後大模型公司百川智能最直接的實踐。

量子位獲悉，Baichuan4-Finance 之所以能取得這樣的成績，主要原因是其全鏈路領網域增強方案中包括有高質量數據、在模型訓練過程中首創了自約束訓練方案，在微調階段也做了大量增強工作。

本着客觀和理性的精神，我們還是老規矩，把模型和方案一點點掰開，一起來看——

開閉源 Benchmark 實測：超 GPT-4o 近 20%

百川公布了一系列 Baichuan4-Finance 的榜單成績，整體來看，該模型在金融類開 / 閉源 benchmark 上均表現出色。

出色到什麼地步呢？

這麼說吧，它能當會計、能當交易員、能當精算師，純純的金融行業全能大通才。

先來看開源的金融 benchmark，FinanceIQ。

簡單介紹下，FinanceIQ 是金融領網域的中文評估數據集，涵蓋 10 個金融大類和 36 個金融小類，總計 7173 個單項選擇題。它的重點是評估大模型在金融場景下的知識和推理能力。

Baichuan4-Finance 位列榜首，整體準确率達 79.23%，而 GPT-4o 是 66.25%。

也就是說 Baichuan4-Finance 領先了 GPT-4o 約 13%。

然後來看閉源的金融 benchmark，FLAME。

FLAME（Financial Large-Language Model Assessment and Metrics Evaluation）是人大财政金融學院在本月 17 日發布的金融評測體系，兼顧專業性和實用性，由兩個方向的評測基準組成。

第一個是 FLAME-Cer，主要面向模型的金融專業能力評測，覆蓋了 CPA、CFA、FRM 等 14 類權威金融資格認證。

在 FLAME-Cer 上，Baichuan4-Finance 整體準确率 93.16%，一舉奪魁，超出 GPT-4o 近 20%；在銀行、保險、基金、證券等多個資格認證領網域，該模型的準确率均突破了 95%。

第二個是 FLAME-Sce，它側重模型的場景應用能力，包含 10 個一級核心金融業務場景，21 個二級細分金融業務場景，近百個三級金融應用任務。

FLAME-Sce 評測中，Baichuan4-Finance 的整體可用率也是行業最高。

其中，一級核心金融業務場景的模型整體可用率達 84.15%，金融數據計算、金融知識理論等應用場景的可用率更是超過 90%。

從榜單成績來看，Baichuan4-Finance 的精确度和可靠性都在同類模型中脫穎而出，一定程度上表現了其在金融知識領網域的深厚積累與專業素養。

但老話說得好，" 盡信書不如無書 "，咱們也不能拿榜單當唯一的評判标準。

還是得上手看效果（認真臉 .jpg）。

量子位一連三測，咱們來看：

金融行話解釋

Prompt：以下是一個金融行業常用的術語（黑話），請對這個術語進行解釋：技術性違約。

Baichuan4-Finance 的回答如下圖。

GPT-4o 的回答如下圖。

最直觀的感受，Baichuan4-Finance 的回答更長更豐富，GPT-4o 的回答較為簡短。

仔細閱讀後不難發現，Baichuan4-Finance 不僅詳細闡述了名詞概念，還從違反合同條款、觸發條件、後果、解決方式等多個維度來解釋 " 技術性違約 "，輔以功能意義和使用場景，帶舉例的那種。

邏輯也清晰，有助于讀者全面理解這一概念。

GPT-4o 内容較為簡單，雖然有案例簡單例舉，但提供的信息量确實比不上前者。

業務應對

Prompt：銀行在發現哪些情況時，應将部門銀行結算賬戶的網上銀行轉賬功能關閉，并要求存款人到銀行網點櫃台辦理轉賬業務 ?

Baichuan4-Finance 的回答如下圖，結合了相關《通知》的規定。

更适合中國寶寶體質～

GPT-4o 的回答如下。

倒也列舉了一些情況，但是沒有結合實際條款，比較空泛，也不知是否符合相關規定。

基于财務報表的财務指标提取

Prompt（主要）：你是一位專業的财務數據分析師，負責從提供的已知的财務報表中抽取特定信息。你的任務是針對用戶提出的問題，從财務報表中提取相關數據。最終問題是 " 截至 2024 年 3 月底，淘寶和天貓集團的調整後 EBITA 是多少？"

在 prompt 裡，我們附加了輸出結果需要遵守的 " 原則遵循 "：

準确性：嚴格基于 " 财務報表 " 進行信息抽取，确保所有數據的準确無誤。

完整性：如果 " 财務報表 " 中包含用戶問題所需的所有數據，則提供完整的答案；如果缺少信息，則在相應的資料欄中留空。

輸出格式：以 JSON 形式輸出抽取的信息，确保易于閱讀和理解。

以及這裡附上和 prompt 一起喂過去的财務報表 OCR 文本。

Baichuan4-Finance 的回答如下。

這一局 GPT 雖然也給出了準确答案，但帶了額外的文字總結；Baichuan4-Finance 更符合 " 以 JSON 形式輸出抽取的信息 " 這一約束條件。

綜合所有測試結果來看（包括沒有放進來的一些其它 case），Baichuan4-Finance 确實不容小觑，且穩定性很強。

行業首創領網域自約束訓練方案

接下來就是咱們的必問題環節，訓出這麼強的 Baichuan4-Finance，百川是怎麼做到的？

百川智能給出的答案是，拿訓練階段的三步走來說話。

哪三步？

訓練數據準備——模型 post-pretrain ——模型微調。

（先預告下，其中的第二階段含有一個非常妙的首創性策略）

階段 1：訓練數據準備

第一階段訓練數據準備，又可細抽成數據收集和數據處理兩個步驟。

Baichuan4-Finance 涵蓋的數據集如表格所示，既包含核心專業金融知識數據，也覆蓋了實踐應用類數據，為提升模型金融能力提供了良好的底層支撐。

而且為了保證模型基礎能力，團隊特意在訓練過程引入了更高精的通用數據混合訓練，确保該模型既能理論扎實，又能實踐過硬，不會只紙上談兵。

值得一提的是，在數據收集階段，百川在金融專家團隊的專業指導下，構建了一個全面、嚴謹、高質量的金融領網域訓練數據體系。

數據框架設計：由專家團隊規劃整體數據架構，确保知識體系的完整性和專業性；

高質量數據圈定：依托專家團隊的學術洞見，精準定位優質數據源；

專業數據标注：在專家團隊指導下進行專業化标注，确保數據質量；

知識體系審核：由專家團隊把控知識準确性，驗證數據價值。

一整個就是「學術權威背書 + 體系化知識結構 + 嚴格的質量保障」，齊活了。

數據處理這一步，百川采用了智能數據去噪技術、高效數據去重機制、嚴格數據脫敏等，還建立了一套完整的數據處理體系。

展開來說，首先基于樣本可讀性、知識密度等多個維度對單個樣本進行初步評分；其次，根據不同數據來源的特點，設定差異化的評估維度權重進行二次評分；最後，通過深度學習模型對多維度評分進行回歸分析，得出樣本的最終質量分。

這個體系不僅确保了訓練數據的高質量，更通過創新的評估體系和配比優化系統，很好地支持了模型性能的卓越度。

階段 2：模型 post-pretrain

第二階段，來到了模型 post-pretrain。

先敲黑板，在訓練行業領網域大模型時，業界目前的普遍做法是通用訓練語料與領網域數據相結合的 CPT 的訓練方式。

這個訓練方法可用，但伴随着 2 個關鍵挑戰。

一是如何确定最優的數據混合比例，包括領網域内不同類型數據的配比以及領網域數據與通用數據的融合比例；二是如何選擇合适的訓練策略，在課程學習、固定配比訓練以及結合退火實驗等方案中找到最佳方案。

在大量實驗後，百川發現傳統固定配比的直接訓練方式存在明顯缺陷：随着訓練的深入，模型的金融領網域能力雖然不斷提升，但通用能力卻顯著下降。

考慮到金融領網域包含諸多不同場景，模型的泛化能力至關重要，因此百川為訓練過程首提了一種創新性的策略——

領網域自約束的訓練方案 +"loss scaling law + metric scaling law" 雙重預測推演過程。

以此保證模型通用能力不下降，領網域能力提升。

領網域自約束的訓練方案是啥？一種提升模型垂網域泛化能力、又不降低通用能力的訓練策略。

這麼說吧，在模型 CPT 過程中，領網域知識的直接引入會破壞原有 base model 的訓練分布，因此直接基于領網域數據或者混合通用領網域這兩種方案進行訓練，必然會讓通用能力下降。

于是，不想破壞通用能力的百川團隊就提出了個新的訓練方案，稱之為 " 領網域自約束 "。

具體來說，是在基礎領網域模型訓練過程中構建一個和基礎模型同參且參數不更新的 "reference model"，來指導模型訓練的過程不要跑偏，從而達到「通用能力不降，領網域能力穩定增長」的效果。

△在小模型上進行領網域自約束的推演實驗結果

Attention Please！

領網域自約束的訓練方案，百川從很早之前就一直在研究和迭代。

Baichuan4-Finance 只是百川把領網域自約束的訓練方案運用在金融行業的一個落地案例，這個方案實際上也有泛化性，适配任何一個垂直領網域和行業，包括但不限于醫療、教育……

至于"loss scaling law + metric scaling law" 雙重預測推演過程，來源是醬嬸兒的：

百川團隊在小參數量模型上了進行多組參數、多組數據配比實驗，獲取了足夠的數據配比到 domain loss 的曲線樣本，從而構建了配比到 loss 的回歸模型。

然後再根據 domain loss 到自建的通用指标體系和金融知識體系的對應關系，構建了 domain loss 到模型最終優化目标的回歸模型。

通過上述兩個模型，團隊實現了從參數配比到訓練目标以及結果的推演過程，從而達到了動态監控和模拟模型訓練趨勢。

以下是采用訓練預測方案獲取的配比數據訓練出來的模型，整體效果在通用能力上領先通用 base model 效果的結果：

在模型 post-pretrain 過程中，百川團隊還完成了多維度測試集合，也就是在每個檢查點（checkpoint）進行全方位能力測試。

涵蓋了通用知識能力、通用應用能力、金融知識能力、金融應用能力等。

綜合起來，這套訓練和評估方案，确保了模型在金融專業領網域的強勁實力，并且維持了其跨領網域的通用性能穩定不變。

階段 3: 模型微調

最後的模型微調階段，主要采用了進行有監督微調（SFT）和強化學習策略（RLHF）。

進行 SFT，是為了優化模型在特定金融任務上的表現；而 RLHF 主要是為了進一步提升模型性能。

這裡不展開贅述，但嚴謹起見，還是取 RLHF 在數學能力上的表現為例。

從下圖可以看到：

數學增強 -PPO 版本（Baichuan4-Finance）> 數學增強 -SFT 版本（Baichuan4-Finance w/o PPO）> 非數學增強 -SFT 版本（Baichuan4-Finance-Base-SFT）。

回頭看沒做強化時（藍色曲線），模型 Pass@1 和 pass@5 結果的準确率產生了較大的差異化，這樣表明模型本身在各個數學能力項上依然有很大的潛力。

而做完強化後（橙色曲線），模型在數學方面的能力有了很大的提升，且提升趨勢和潛力趨勢（藍色曲線）呈正相關。

因此這表明，強化學習的引入，能讓模型在數學這類答案聚焦的問題上性能表現的更好。

全方位提升金融行業價值

在攻克了「通用能力與泛化能力的平衡」這一模型在垂直領網域應用的主要難題後，Baichuan4-Finance 就能大展身手了，得以在多維度為金融行業實現全面價值的提升增強。

效率優化層面：模型能夠智能處理文檔審核、客戶咨詢、產品營銷等大量日常工作，顯著提升運營效率，釋放人力資源。

風控合規方面：依托深厚的金融專業知識和法律法規理解能力，能為機構提供精準的風險識别和合規保障。

客戶服務層面：依托模型強大的多輪對話理解和金融專業知識問答能力，通過 7*24 小時的智能響應和個性化服務，全面提升客戶體驗與滿意度。

決策支持方面：基于模型強大的數據分析能力，能夠為管理層提供專業的市場洞察和決策建議，助力機構實現數字化轉型和業務創新。

舉個 Baichuan4-Finance 用戶的真實栗子

某商業銀行信用卡中心，每日需處理數十萬通客戶咨詢，業務高峰期更是忙得不可開交。

基于 Baichuan4-Finance 搭建智能客服解決方案後，該中心充分利用了模型在金融專業知識和多輪對話方面的優勢。

系統可準确理解客戶意圖，自動回答包括賬單分期、額度調整、優惠活動、積分兌換等常見業務咨詢，并可結合客戶實際需求進行精準的產品推薦；而針對復雜問題，模型可進行多輪對話澄清，确保準确理解客戶需求。

同時，系統還可基于實時互動場景，結合用戶畫像，提供個性化的解決方案和產品建議，并在涉及敏感信息時進行智能脫敏處理。

結果就是，現在該中心有 7*24 小時準确的即時響應，客戶等待時間縮短 80%，還減少了 40% 的人工成本，預期可提升 30% 的產品轉化率。

再比如，某保險公司運用 Baichuan4-Finance 打造智能營銷輔助系統，将產品匹配準确率提升了 50%；還預計可降低 30% 的獲客成本；通過個性化營銷策略，預期可将產品轉化率提升 40%，實現養老理财產品精準營銷。

而且，在所有的實際應用中，由于能時刻在線，多輪對話能力強大，專業知識儲備雄厚，為用戶提供個性化服務，所有用上了 Baichuan4-Finance 的機構，以往使用傳統人工客服參與環節中可能出現的響應速度慢、服務質量不穩定、專業知識儲備不足等痛點，統統被解決。

前面我們提到過，Baichuan4-Finance 是百川行業首創領網域自約束訓練方案在金融這個領網域的落地體現。從以上具體效果、數據和口碑反饋可以看出：

這方案有用、好用，首戰告捷。

而百川的下一步，必然是以自家基座大模型打底，瞄準各個領網域、行業，逐一進行 " 領網域增強 "。

與此同時，百川自己的大模型生态體系也在過去的近兩年時間内，逐步搭建起來——

已經服務數千家客戶，包括北電數智、完美世界遊戲、愛奇藝、360 集團、生學教育、愛學堂等各行各業的領頭羊；合作多家行業生态夥伴，如信雅達、用友、軟通動力、新致軟體、達觀數據、華勝天成等；還攜手了中國移動、中國電信、中國聯通等運營商。

回過頭看，Baichuan4-Finance 的發布，不僅标志着百川智能技術策略的領先地位、首創方案的實用價值，見證了通用模型泛化到垂直領網域的巨大價值。

更預示着，2025 年起，大模型的能力，将在更多行業和領網域内產生更為深刻長遠的滲透和影響。

FLAME GitHub 地址：

https://github.com/FLAME-ruc/FLAME/tree/main

— 完 —

點這裡關注我，記得标星哦～

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~