百川智能发布超千亿参数大模型Baichuan 3，医疗能力逼近GPT-4

今天小编分享的互联网经验：百川智能发布超千亿参数大模型Baichuan 3，医疗能力逼近GPT-4，欢迎阅读。

图片来源：视觉中国

1 月 29 日，中国人工智能创业公司百川智能发布超千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中，Baichuan 3 都展现了出色的能力。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多个中文评测榜单上，更是超越 GPT-4 展现了其在中文任务上的优势。

与百亿、几百亿级别参数模型训练不同，超千亿参数模型在训练过程中对高质量数据，训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题，百川智能在训练过程中针对性地提出了 " 动态数据选择 "、" 重要度保持 " 以及 " 异步 CheckPoint 存储 " 等多种创新技术手段及方案，有效提升了 Baicuan 3 的各项能力。

高质量数据方面，传统的数据筛选依靠人工定义，通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为，数据的优化和采样是一个动态过程，应该随着模型本身的训练过程优化，而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量，百川智能设计了一套基于因果采样的动态训练数据选择方案，该方案能够在模型训练过程中动态地选择训练数据，极大提升数据质量。

百川智能的医疗知识水平也有突破。Baichuan3 的医疗数据集 Token 数超千亿，医疗能力逼近 GPT-4。为了给 Baichuan3 注入丰富的医疗知识，百川智能在模型预训练阶段构建了超过千亿 Token 的医疗数据集，包括医学研究文献、真实的电子病历资料、医学领網域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作，从基础理论到临床应用等各个方面的医学知识。

目前，百川智能没有透露模型参数量，只是公布 Baichuan3 是超千亿参数的大模型。相比之下，GPT-3.5 是 1750 亿参数。

百川智能由王小川和茹立云联合创立，成立于 2023 年 4 月，以搜狗团队为基础。据报道，公司成立之初就已获得 5000 万美元启动资金。

百川智能的速度一直很快。百川智能成立不到 100 天，便发布了 Baichuan-7B、Baichuan-13B 两款开源可免费商用的中文大模型。从 Baichuan 1.0 到如今 3.0，只用了 9 个月。

就在一个月前，2023 年 12 月 19 日，百川智能宣布开放基于搜索增强的 Baichuan2-Turbo 系列 API，包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo，在支持 192K 上下文視窗的基础上，还增加了搜索增强知识库的能力。

相比于 Baichuan2-192K，Baichuan3 的允许输入文本长度有缩水。Baichuan2-192K 上线时，允许用户输入文本最长达 35 万字，宣称可以一次读完一本《三体 2》，是全球处理上下文視窗长度最长的大模型。目前 Baichuan3 允许输入不超过 4096 个字元的文本，相当于 2000 个汉字或者 3000 个英文单词。

在过去一年的大模型创业中，通过行业数据训练行业垂直大模型，被认为是大模型在 B 端落地的主要路径。但百川智能选了另一条方向，据甲子光年报道，百川智能将向量数据库更新为搜索增强知识库，提升了大模型获取外部知识的能力；把搜索增强知识库和超长上下文視窗结合，让模型可以连接全部企业知识库以及全网信息。

去年年底的媒体沟通会上，王小川透露，百川智能的 C 端产品第一重心是医疗方向，产品预计会在 2024 年上线。