今天小编分享的科学经验:百川新模型超GPT-4o近20%,首创自约束训练方案突破瓶颈,主打「领網域增强」,欢迎阅读。
大模型的竞速赛,正站在通用底座的基础上,掀起" 领網域增强 "风暴。
刚刚就出现了个最直观的例子:金融领網域大模型王座,它易主了!
新王是谁?突然出现的全链路金融领網域增强大模型 Baichuan4-Finance,榜单成绩非常亮眼,专业性和可用性行业第一。
背后的力气和手段,就是领網域增强方案。
划个重点,它真的非常值得大家好好琢磨琢磨!因为 Baichuan4-Finance 是百川智能全链条领網域增强方案在金融领網域的成果,该方案也可以成功迁移运用在其它领網域,比如医疗、教育、法律……一通百通。
而将方案率先在金融领網域落地,这就是其背后大模型公司百川智能最直接的实践。
量子位获悉,Baichuan4-Finance 之所以能取得这样的成绩,主要原因是其全链路领網域增强方案中包括有高质量数据、在模型训练过程中首创了自约束训练方案,在微调阶段也做了大量增强工作。
本着客观和理性的精神,我们还是老规矩,把模型和方案一点点掰开,一起来看——
开闭源 Benchmark 实测:超 GPT-4o 近 20%
百川公布了一系列 Baichuan4-Finance 的榜单成绩,整体来看,该模型在金融类开 / 闭源 benchmark 上均表现出色。
出色到什么地步呢?
这么说吧,它能当会计、能当交易员、能当精算师,纯纯的金融行业全能大通才。
先来看开源的金融 benchmark,FinanceIQ。
简单介绍下,FinanceIQ 是金融领網域的中文评估数据集,涵盖 10 个金融大类和 36 个金融小类,总计 7173 个单项选择题。它的重点是评估大模型在金融场景下的知识和推理能力。
Baichuan4-Finance 位列榜首,整体准确率达 79.23%,而 GPT-4o 是 66.25%。
也就是说 Baichuan4-Finance 领先了 GPT-4o 约 13%。
然后来看闭源的金融 benchmark,FLAME。
FLAME(Financial Large-Language Model Assessment and Metrics Evaluation)是人大财政金融学院在本月 17 日发布的金融评测体系,兼顾专业性和实用性,由两个方向的评测基准组成。
第一个是 FLAME-Cer,主要面向模型的金融专业能力评测,覆盖了 CPA、CFA、FRM 等 14 类权威金融资格认证。
在 FLAME-Cer 上,Baichuan4-Finance 整体准确率 93.16%,一举夺魁,超出 GPT-4o 近 20%;在银行、保险、基金、证券等多个资格认证领網域,该模型的准确率均突破了 95%。
第二个是 FLAME-Sce,它侧重模型的场景应用能力,包含 10 个一级核心金融业务场景,21 个二级细分金融业务场景,近百个三级金融应用任务。
FLAME-Sce 评测中,Baichuan4-Finance 的整体可用率也是行业最高。
其中,一级核心金融业务场景的模型整体可用率达 84.15%,金融数据计算、金融知识理论等应用场景的可用率更是超过 90%。
从榜单成绩来看,Baichuan4-Finance 的精确度和可靠性都在同类模型中脱颖而出,一定程度上表现了其在金融知识领網域的深厚积累与专业素养。
但老话说得好," 尽信书不如无书 ",咱们也不能拿榜单当唯一的评判标准。
还是得上手看效果(认真脸 .jpg)。
量子位一连三测,咱们来看:
金融行话解释
Prompt:以下是一个金融行业常用的术语(黑话),请对这个术语进行解释:技术性违约。
Baichuan4-Finance 的回答如下图。
GPT-4o 的回答如下图。
最直观的感受,Baichuan4-Finance 的回答更长更丰富,GPT-4o 的回答较为简短。
仔细阅读后不难发现,Baichuan4-Finance 不仅详细阐述了名词概念,还从违反合同条款、触发条件、后果、解决方式等多个维度来解释 " 技术性违约 ",辅以功能意义和使用场景,带举例的那种。
逻辑也清晰,有助于读者全面理解这一概念。
GPT-4o 内容较为简单,虽然有案例简单例举,但提供的信息量确实比不上前者。
业务应对
Prompt:银行在发现哪些情况时,应将部門银行结算账户的网上银行转账功能关闭,并要求存款人到银行网点柜台办理转账业务 ?
Baichuan4-Finance 的回答如下图,结合了相关《通知》的规定。
更适合中国宝宝体质~
GPT-4o 的回答如下。
倒也列举了一些情况,但是没有结合实际条款,比较空泛,也不知是否符合相关规定。
基于财务报表的财务指标提取
Prompt(主要):你是一位专业的财务数据分析师,负责从提供的已知的财务报表中抽取特定信息。你的任务是针对用户提出的问题,从财务报表中提取相关数据。最终问题是 " 截至 2024 年 3 月底,淘宝和天猫集团的调整后 EBITA 是多少?"
在 prompt 里,我们附加了输出结果需要遵守的 " 原则遵循 ":
准确性:严格基于 " 财务报表 " 进行信息抽取,确保所有数据的准确无误。
完整性:如果 " 财务报表 " 中包含用户问题所需的所有数据,则提供完整的答案;如果缺少信息,则在相应的資料欄中留空。
输出格式:以 JSON 形式输出抽取的信息,确保易于阅读和理解。
以及这里附上和 prompt 一起喂过去的财务报表 OCR 文本。
Baichuan4-Finance 的回答如下。
这一局 GPT 虽然也给出了准确答案,但带了额外的文字总结;Baichuan4-Finance 更符合 " 以 JSON 形式输出抽取的信息 " 这一约束条件。
综合所有测试结果来看(包括没有放进来的一些其它 case),Baichuan4-Finance 确实不容小觑,且稳定性很强。
行业首创领網域自约束训练方案
接下来就是咱们的必问题环节,训出这么强的 Baichuan4-Finance,百川是怎么做到的?
百川智能给出的答案是,拿训练阶段的三步走来说话。
哪三步?
训练数据准备——模型 post-pretrain ——模型微调。
(先预告下,其中的第二阶段含有一个非常妙的首创性策略)
阶段 1:训练数据准备
第一阶段训练数据准备,又可细抽成数据收集和数据处理两个步骤。
Baichuan4-Finance 涵盖的数据集如表格所示,既包含核心专业金融知识数据,也覆盖了实践应用类数据,为提升模型金融能力提供了良好的底层支撑。
而且为了保证模型基础能力,团队特意在训练过程引入了更高精的通用数据混合训练,确保该模型既能理论扎实,又能实践过硬,不会只纸上谈兵。
值得一提的是,在数据收集阶段,百川在金融专家团队的专业指导下,构建了一个全面、严谨、高质量的金融领網域训练数据体系。
数据框架设计:由专家团队规划整体数据架构,确保知识体系的完整性和专业性;
高质量数据圈定:依托专家团队的学术洞见,精准定位优质数据源;
专业数据标注:在专家团队指导下进行专业化标注,确保数据质量;
知识体系审核:由专家团队把控知识准确性,验证数据价值。
一整个就是「学术权威背书 + 体系化知识结构 + 严格的质量保障」,齐活了。
数据处理这一步,百川采用了智能数据去噪技术、高效数据去重机制、严格数据脱敏等,还建立了一套完整的数据处理体系。
展开来说,首先基于样本可读性、知识密度等多个维度对单个样本进行初步评分;其次,根据不同数据来源的特点,设定差异化的评估维度权重进行二次评分;最后,通过深度学习模型对多维度评分进行回归分析,得出样本的最终质量分。
这个体系不仅确保了训练数据的高质量,更通过创新的评估体系和配比优化系统,很好地支持了模型性能的卓越度。
阶段 2:模型 post-pretrain
第二阶段,来到了模型 post-pretrain。
先敲黑板,在训练行业领網域大模型时,业界目前的普遍做法是通用训练语料与领網域数据相结合的 CPT 的训练方式。
这个训练方法可用,但伴随着 2 个关键挑战。
一是如何确定最优的数据混合比例,包括领網域内不同类型数据的配比以及领網域数据与通用数据的融合比例;二是如何选择合适的训练策略,在课程学习、固定配比训练以及结合退火实验等方案中找到最佳方案。
在大量实验后,百川发现传统固定配比的直接训练方式存在明显缺陷:随着训练的深入,模型的金融领網域能力虽然不断提升,但通用能力却显著下降。
考虑到金融领網域包含诸多不同场景,模型的泛化能力至关重要,因此百川为训练过程首提了一种创新性的策略——
领網域自约束的训练方案 +"loss scaling law + metric scaling law" 双重预测推演过程。
以此保证模型通用能力不下降,领網域能力提升。
领網域自约束的训练方案是啥?一种提升模型垂網域泛化能力、又不降低通用能力的训练策略。
这么说吧,在模型 CPT 过程中,领網域知识的直接引入会破坏原有 base model 的训练分布,因此直接基于领網域数据或者混合通用领網域这两种方案进行训练,必然会让通用能力下降。
于是,不想破坏通用能力的百川团队就提出了个新的训练方案,称之为 " 领網域自约束 "。
具体来说,是在基础领網域模型训练过程中构建一个和基础模型同参且参数不更新的 "reference model",来指导模型训练的过程不要跑偏,从而达到「通用能力不降,领網域能力稳定增长」的效果。
△在小模型上进行领網域自约束的推演实验结果
Attention Please!
领網域自约束的训练方案,百川从很早之前就一直在研究和迭代。
Baichuan4-Finance 只是百川把领網域自约束的训练方案运用在金融行业的一个落地案例,这个方案实际上也有泛化性,适配任何一个垂直领網域和行业,包括但不限于医疗、教育……
至于"loss scaling law + metric scaling law" 双重预测推演过程,来源是酱婶儿的:
百川团队在小参数量模型上了进行多组参数、多组数据配比实验,获取了足够的数据配比到 domain loss 的曲线样本,从而构建了配比到 loss 的回归模型。
然后再根据 domain loss 到自建的通用指标体系和金融知识体系的对应关系,构建了 domain loss 到模型最终优化目标的回归模型。
通过上述两个模型,团队实现了从参数配比到训练目标以及结果的推演过程,从而达到了动态监控和模拟模型训练趋势。
以下是采用训练预测方案获取的配比数据训练出来的模型,整体效果在通用能力上领先通用 base model 效果的结果:
在模型 post-pretrain 过程中,百川团队还完成了多维度测试集合,也就是在每个检查点(checkpoint)进行全方位能力测试。
涵盖了通用知识能力、通用应用能力、金融知识能力、金融应用能力等。
综合起来,这套训练和评估方案,确保了模型在金融专业领網域的强劲实力,并且维持了其跨领網域的通用性能稳定不变。
阶段 3: 模型微调
最后的模型微调阶段,主要采用了进行有监督微调(SFT)和强化学习策略(RLHF)。
进行 SFT,是为了优化模型在特定金融任务上的表现;而 RLHF 主要是为了进一步提升模型性能。
这里不展开赘述,但严谨起见,还是取 RLHF 在数学能力上的表现为例。
从下图可以看到:
数学增强 -PPO 版本(Baichuan4-Finance)> 数学增强 -SFT 版本(Baichuan4-Finance w/o PPO)> 非数学增强 -SFT 版本(Baichuan4-Finance-Base-SFT)。
回头看没做强化时(蓝色曲线),模型 Pass@1 和 pass@5 结果的准确率产生了较大的差异化,这样表明模型本身在各个数学能力项上依然有很大的潜力。
而做完强化后(橙色曲线),模型在数学方面的能力有了很大的提升,且提升趋势和潜力趋势(蓝色曲线)呈正相关。
因此这表明,强化学习的引入,能让模型在数学这类答案聚焦的问题上性能表现的更好。
全方位提升金融行业价值
在攻克了「通用能力与泛化能力的平衡」这一模型在垂直领網域应用的主要难题后,Baichuan4-Finance 就能大展身手了,得以在多维度为金融行业实现全面价值的提升增强。
效率优化层面:模型能够智能处理文档审核、客户咨询、产品营销等大量日常工作,显著提升运营效率,释放人力资源。
风控合规方面:依托深厚的金融专业知识和法律法规理解能力,能为机构提供精准的风险识别和合规保障。
客户服务层面:依托模型强大的多轮对话理解和金融专业知识问答能力,通过 7*24 小时的智能响应和个性化服务,全面提升客户体验与满意度。
决策支持方面:基于模型强大的数据分析能力,能够为管理层提供专业的市场洞察和决策建议,助力机构实现数字化转型和业务创新。
举个 Baichuan4-Finance 用户的真实栗子
某商业银行信用卡中心,每日需处理数十万通客户咨询,业务高峰期更是忙得不可开交。
基于 Baichuan4-Finance 搭建智能客服解决方案后,该中心充分利用了模型在金融专业知识和多轮对话方面的优势。
系统可准确理解客户意图,自动回答包括账单分期、额度调整、优惠活动、积分兑换等常见业务咨询,并可结合客户实际需求进行精准的产品推荐;而针对复杂问题,模型可进行多轮对话澄清,确保准确理解客户需求。
同时,系统还可基于实时互動场景,结合用户画像,提供个性化的解决方案和产品建议,并在涉及敏感信息时进行智能脱敏处理。
结果就是,现在该中心有 7*24 小时准确的即时响应,客户等待时间缩短 80%,还减少了 40% 的人工成本,预期可提升 30% 的产品转化率。
再比如,某保险公司运用 Baichuan4-Finance 打造智能营销辅助系统,将产品匹配准确率提升了 50%;还预计可降低 30% 的获客成本;通过个性化营销策略,预期可将产品转化率提升 40%,实现养老理财产品精准营销。
而且,在所有的实际应用中,由于能时刻在线,多轮对话能力强大,专业知识储备雄厚,为用户提供个性化服务,所有用上了 Baichuan4-Finance 的机构,以往使用传统人工客服参与环节中可能出现的响应速度慢、服务质量不稳定、专业知识储备不足等痛点,统统被解决。
前面我们提到过,Baichuan4-Finance 是百川行业首创领網域自约束训练方案在金融这个领網域的落地体现。从以上具体效果、数据和口碑反馈可以看出:
这方案有用、好用,首战告捷。
而百川的下一步,必然是以自家基座大模型打底,瞄准各个领網域、行业,逐一进行 " 领網域增强 "。
与此同时,百川自己的大模型生态体系也在过去的近两年时间内,逐步搭建起来——
已经服务数千家客户,包括北电数智、完美世界游戏、爱奇艺、360 集团、生学教育、爱学堂等各行各业的领头羊;合作多家行业生态伙伴,如信雅达、用友、软通动力、新致軟體、达观数据、华胜天成等;还携手了中国移动、中国电信、中国联通等运营商。
回过头看,Baichuan4-Finance 的发布,不仅标志着百川智能技术策略的领先地位、首创方案的实用价值,见证了通用模型泛化到垂直领網域的巨大价值。
更预示着,2025 年起,大模型的能力,将在更多行业和领網域内产生更为深刻长远的渗透和影响。
FLAME GitHub 地址:
https://github.com/FLAME-ruc/FLAME/tree/main
— 完 —
点这里关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>