今天小编分享的互联网经验:参数量再加大,百川智能发布13B中英文大模型,开源可商用,欢迎阅读。
作者 | 周愚
编辑 | 邓咏仪
36 氪获悉,7 月 11 日,百川智能公司正式发布通用大语言模型 Baichuan-13B-Base、对话模型 Baichuan-13B-Chat 及其 INT4/INT8 两个量化版本,参数量达 130 亿。
这是自今年 4 月成立以来,百川智能发布的第二款通用大语言模型。6 月 15 日,百川智能推出首款 70 亿参数量中英文语言模型—— Baichuan-7B,36 氪此前也做过报道。
预训练模型 " 底座 " 因其灵活的可定制性,适合具有一定开发能力的开发者和企业,而普通用户则更关注具有对话功能的对齐模型。本次发布 13B-Base 的同时,百川智能也发布了其对话模型 Baichuan-13B-Chat,对开发者而言部署简单、开箱即用。
而百川智能还同时开源了 Baichuan-13B-Chat 的 INT8 和 INT4 两个量化版本,可以被近乎无损地部署在如 3090 等的消费级显卡上。
相比此前发布的 Baichuan-7B,这次发布的 Baichuan-13B 是参数量更大的版本。Baichuan-13B 在 1.4 万亿 token 数据集上训练,参数量超过 LLaMA-13B 40%。
据百川智能,Baichuan-13B 在 C-EVAL、MMLU 等中、英文领網域权威评测榜单上均进行了能力测试,测试结果位于国内外大模型的前列。
在中文 C-EVAL 评测中,Baichuan-13B-Base、Baichuan-13B-Chat 分别取得 53.4 分、51.5 分。来源:百川智能
比如,在中文领網域权威评测 C-EVAL 中,Baichuan-13B 得分在自然科学、医学、艺术、数学等领網域,超过了 Meta 旗下的 LLaMA-13B 等同尺寸的大语言模型;而在社会科学、人文科学等领網域,超过了 ChatGPT。
而在英文权威评测榜单 MMLU 上,Baichuan-13B 得分则在所有领網域内,超过了包括 LLaMA-13B 在内的所有同尺寸开源模型。Baichuan-13B-Base 和 ChatGPT 的得分,分别达 51.6 分和 52.1 分。
Baichuan-13B 在中文评测 C-EVAL 上的表现。来源:百川智能
Baichuan-13B 在英文评测 MMLU 上的表现。来源:百川智能
面向中文语言模型的 C-Eval 评测基准,是由上海交通大学、清华大学以及爱丁堡大学联合创建,覆盖了 52 个来自不同行业领網域的学科。 MMLU 则主要是对模型的英文跨学科专业能力进行深入测试,由加州大学伯克利分校等知名高校共同打造,集合了不同领網域的 57 个学科。
在语言模型中,上下文視窗长度对于理解和生成与特定上下文相关的文本至关重要。Baichuan-13B 上下文視窗长度为 4096,不同于 Baichuan-7B 的 RoPE 编码方式,Baichuan-13B 使用了 ALiBi 位置编码技术。
该技术能够处理长上下文視窗,甚至推断超出训练期间读取数据的上下文长度,从而更好捕捉文本中上下文的相关性,做出更准确的预测或生成。
此外,为了取得在中、英两种语言中的均衡表现,Baichuan-13B 采用了相对平衡的中英文语料配比和多语言对齐语料。
本次发布依然延续开源、可商用的原则。目前,Baichuan-13B-Base 和 Chat 均已发布在 Hugging Face、Github 以及 Model Scope 平台上。该模型对学术研究完全开放,其他开发者在获得官方商用许可后,即可免费试用。
附项目开源地址:
Hugging Face:
预训练模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
对话模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:https://github.com/baichuan-inc/Baichuan-13B
Model Scope:
预训练模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
对话模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/