今天小编分享的互联网经验:百川智能发布超千亿参数大模型Baichuan 3,医疗能力逼近GPT-4,欢迎阅读。
图片来源:视觉中国
1 月 29 日,中国人工智能创业公司百川智能发布超千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中,Baichuan 3 都展现了出色的能力。而在 CMMLU、GAOKAO、HumanEval 和 MBPP 等多个中文评测榜单上,更是超越 GPT-4 展现了其在中文任务上的优势。
与百亿、几百亿级别参数模型训练不同,超千亿参数模型在训练过程中对高质量数据,训练稳定性、训练效率的要求都高出几个量级。为更好解决相关问题,百川智能在训练过程中针对性地提出了 " 动态数据选择 "、" 重要度保持 " 以及 " 异步 CheckPoint 存储 " 等多种创新技术手段及方案,有效提升了 Baicuan 3 的各项能力。
高质量数据方面,传统的数据筛选依靠人工定义,通过滤重筛选、质量打分、Textbook 筛选等方法过滤数据。而百川智能认为,数据的优化和采样是一个动态过程,应该随着模型本身的训练过程优化,而非单纯依靠人工先验进行数据的采样和筛选。为全面提升数据质量,百川智能设计了一套基于因果采样的动态训练数据选择方案,该方案能够在模型训练过程中动态地选择训练数据,极大提升数据质量。
百川智能的医疗知识水平也有突破。Baichuan3 的医疗数据集 Token 数超千亿,医疗能力逼近 GPT-4。为了给 Baichuan3 注入丰富的医疗知识,百川智能在模型预训练阶段构建了超过千亿 Token 的医疗数据集,包括医学研究文献、真实的电子病历资料、医学领網域的专业书籍和知识库资源、针对医疗问题的问答资料等。该数据集涵盖了从理论到实际操作,从基础理论到临床应用等各个方面的医学知识。
目前,百川智能没有透露模型参数量,只是公布 Baichuan3 是超千亿参数的大模型。相比之下,GPT-3.5 是 1750 亿参数。
百川智能由王小川和茹立云联合创立,成立于 2023 年 4 月,以搜狗团队为基础。据报道,公司成立之初就已获得 5000 万美元启动资金。
百川智能的速度一直很快。百川智能成立不到 100 天,便发布了 Baichuan-7B、Baichuan-13B 两款开源可免费商用的中文大模型。从 Baichuan 1.0 到如今 3.0,只用了 9 个月。
就在一个月前,2023 年 12 月 19 日,百川智能宣布开放基于搜索增强的 Baichuan2-Turbo 系列 API,包含 Baichuan2-Turbo-192K 及 Baichuan2-Turbo,在支持 192K 上下文視窗的基础上,还增加了搜索增强知识库的能力。
相比于 Baichuan2-192K,Baichuan3 的允许输入文本长度有缩水。Baichuan2-192K 上线时,允许用户输入文本最长达 35 万字,宣称可以一次读完一本《三体 2》,是全球处理上下文視窗长度最长的大模型。目前 Baichuan3 允许输入不超过 4096 个字元的文本,相当于 2000 个汉字或者 3000 个英文单词。
在过去一年的大模型创业中,通过行业数据训练行业垂直大模型,被认为是大模型在 B 端落地的主要路径。但百川智能选了另一条方向,据甲子光年报道,百川智能将向量数据库更新为搜索增强知识库,提升了大模型获取外部知识的能力;把搜索增强知识库和超长上下文視窗结合,让模型可以连接全部企业知识库以及全网信息。
去年年底的媒体沟通会上,王小川透露,百川智能的 C 端产品第一重心是医疗方向,产品预计会在 2024 年上线。