今天小編分享的互聯網經驗:參數量再加大,百川智能發布13B中英文大模型,開源可商用,歡迎閲讀。
作者 | 周愚
編輯 | 鄧詠儀
36 氪獲悉,7 月 11 日,百川智能公司正式發布通用大語言模型 Baichuan-13B-Base、對話模型 Baichuan-13B-Chat 及其 INT4/INT8 兩個量化版本,參數量達 130 億。
這是自今年 4 月成立以來,百川智能發布的第二款通用大語言模型。6 月 15 日,百川智能推出首款 70 億參數量中英文語言模型—— Baichuan-7B,36 氪此前也做過報道。
預訓練模型 " 底座 " 因其靈活的可定制性,适合具有一定開發能力的開發者和企業,而普通用户則更關注具有對話功能的對齊模型。本次發布 13B-Base 的同時,百川智能也發布了其對話模型 Baichuan-13B-Chat,對開發者而言部署簡單、開箱即用。
而百川智能還同時開源了 Baichuan-13B-Chat 的 INT8 和 INT4 兩個量化版本,可以被近乎無損地部署在如 3090 等的消費級顯卡上。
相比此前發布的 Baichuan-7B,這次發布的 Baichuan-13B 是參數量更大的版本。Baichuan-13B 在 1.4 萬億 token 數據集上訓練,參數量超過 LLaMA-13B 40%。
據百川智能,Baichuan-13B 在 C-EVAL、MMLU 等中、英文領網域權威評測榜單上均進行了能力測試,測試結果位于國内外大模型的前列。
在中文 C-EVAL 評測中,Baichuan-13B-Base、Baichuan-13B-Chat 分别取得 53.4 分、51.5 分。來源:百川智能
比如,在中文領網域權威評測 C-EVAL 中,Baichuan-13B 得分在自然科學、醫學、藝術、數學等領網域,超過了 Meta 旗下的 LLaMA-13B 等同尺寸的大語言模型;而在社會科學、人文科學等領網域,超過了 ChatGPT。
而在英文權威評測榜單 MMLU 上,Baichuan-13B 得分則在所有領網域内,超過了包括 LLaMA-13B 在内的所有同尺寸開源模型。Baichuan-13B-Base 和 ChatGPT 的得分,分别達 51.6 分和 52.1 分。
Baichuan-13B 在中文評測 C-EVAL 上的表現。來源:百川智能
Baichuan-13B 在英文評測 MMLU 上的表現。來源:百川智能
面向中文語言模型的 C-Eval 評測基準,是由上海交通大學、清華大學以及愛丁堡大學聯合創建,覆蓋了 52 個來自不同行業領網域的學科。 MMLU 則主要是對模型的英文跨學科專業能力進行深入測試,由加州大學伯克利分校等知名高校共同打造,集合了不同領網域的 57 個學科。
在語言模型中,上下文視窗長度對于理解和生成與特定上下文相關的文本至關重要。Baichuan-13B 上下文視窗長度為 4096,不同于 Baichuan-7B 的 RoPE 編碼方式,Baichuan-13B 使用了 ALiBi 位置編碼技術。
該技術能夠處理長上下文視窗,甚至推斷超出訓練期間讀取數據的上下文長度,從而更好捕捉文本中上下文的相關性,做出更準确的預測或生成。
此外,為了取得在中、英兩種語言中的均衡表現,Baichuan-13B 采用了相對平衡的中英文語料配比和多語言對齊語料。
本次發布依然延續開源、可商用的原則。目前,Baichuan-13B-Base 和 Chat 均已發布在 Hugging Face、Github 以及 Model Scope 平台上。該模型對學術研究完全開放,其他開發者在獲得官方商用許可後,即可免費試用。
附項目開源地址:
Hugging Face:
預訓練模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
對話模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
Github:https://github.com/baichuan-inc/Baichuan-13B
Model Scope:
預訓練模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Base/
對話模型:https://modelscope.cn/models/baichuan-inc/Baichuan-13B-Chat/