今天小編分享的科學經驗:王小川大模型25天再更新!13B版本開源免費可商用,3090即可部署,歡迎閲讀。
就在剛剛,王小川的開源大模型又有了新動作——
百川智能,正式發布 130 億參數通用大語言模型(Baichuan-13B-Base)。
并且官方對此的評價是:
性能最強的中英文百億參數量開源模型。
與此一同出道的,還有一個對話模型 Baichuan-13B-Chat,以及它的 INT4/INT8 兩個量化版本。
但更重要的一點是(劃重點),完全開源!免費可商用!
就在不久前的 6 月 15 日,百川智能才剛剛發布其第一款 70 億參數量的中英文語言模型 Baichuan-7B。
當時的版本便已經拿下多個世界權威 Benchmark 榜單同量級測試榜首;同樣作為開源大模型,據説清華北大都已經用上了。
僅僅時隔 25 天,更大、更強的版本再次襲來,不得不説,王小川在技術上的動作是有夠緊鑼密鼓的了。
那麼這次号稱的 " 最強開源大模型 ",具體表現又是怎樣呢?
多領網域超越 ChatGPT
老規矩,先提綱挈領地説一下 Baichuan-13B 的基本個 " 模 " 資料:
中英雙語大模型,130 億參數,在 1.4 萬億 token 數據集上訓練,完全開源、免費可商用。
1.4 萬億 ztoken 這個訓練數據量,超過 LLaMA-13B 訓練數據量的 40%,是當前開源的 13B 尺寸模型世界裏,訓練數據量最大的模型。
此外,Baichuan-13B 上下文視窗長度為 4096 ——這就不得不提到其與 7B 版本完全不同的編碼方式。
7B 版本采用 RoPE 編碼方式,而 13B 使用了 ALiBi 位置編碼技術,後者能夠處理長上下文視窗,甚至可以推斷超出訓練期間讀取數據的上下文長度,從而更好地捕捉文本中上下文的相關性,讓預測或生成更準确。
作為一款中英文雙語大模型,Baichuan-13B 采用了相對平衡的中英文語料配比和多語言對齊語料,從而在中英兩種語言上都有不俗表現。
△主流百億參數 13B 開源模型 benchmark 成績
來看看 Baichuan-13B 在中文領網域的測評成績。
在評測集 C-EVAl 上,Baichuan-13B 在自然科學、醫學、藝術、數學等領網域領先 LLaMA-13B、Vicuna-13B 等同尺寸的大語言模型。
社會科學和人文科學領網域,水平比 ChatGPT 還要好上一點。
英文領網域的表現也算不錯,能比同尺寸的其他開源模型,如 LLaMA-13B、Vicuna-13B 都有更好的表現。
通常而言,非專業用户和有具體需求的企業,對有對話功能的對齊模型有更重的好奇心。
鑑于這個情況,百川智能此次在發布與訓練模型底座 Baichuan-13B-Base 的同時,還發布了其對話模型 Baichuan-13B-Chat 及其 INT4/INT8 兩個量化版本。
來看看對話模型的實際表現效果——
讓它寫個商品介紹郵件,它能寫出醬嬸兒的:
數據推理能力如何?
也淺測了一番:
至于互聯網上遠古或新近流行的各種梗,Baichuan-13B-Chat 好像也沒在怕的:
官方介紹,為了保證模型的純淨度,Baichuan-13B-Base 和 Baichuan-13B-Chat 沒有針對任何 benchmark 測試進行專項優化,具有更高的效能和可定制性。
為什麼要完全開源、可商用?
正如我們剛才提到的,這次百川智能推出的 Baichuan-13B-Base 是對學術研究完全開放。
不僅如此,所有開發者均可通過郵件向百川智能申請授權,在獲得官方商用許可後即可免費商用。
而且據官方的説法,百川智能是為了降低使用的門檻,才同時開源了 Baichuan-13B-Chat 的 INT8 和 INT4 兩個量化版本。
這樣一來,在近乎無損的情況下,便可以将模型部署在如 3090 等消費級顯卡上。
想必很多小夥伴就要問了,百川智能為什麼要走這麼一條路?
其實如果看下 Meta 在大模型上的開源之路,便可窺知一二。
我們都知道大模型在訓練的成本極高,因此像 OpenAI 和谷歌兩大科技巨頭最初選擇的是閉源的 " 路數 ",它們為的就是以此保證自己的優勢。
而 Meta 後來所推出的 LLaMa 則與之 " 背道而馳 ",但所迸發出來的潛力卻是有目共睹——
迅速吸引大批開發者,在 LLaMa 基礎上迭代出了各種 ChatGPT 的替代品,甚至在性能的表現上是可以匹敵 GPT-3.5 的那種。
加之業界對大模型未來發展态勢已經達成了一個共識:
類似安卓和 iOS,将會是開源和閉源共存的狀态。
因此,開源在大模型的發展中已然成為一股不可或缺的中堅力量。
……
那麼你對于王小川的新大模型,有何看法呢?
【HuggingFace】
預訓練模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Base
對話模型:https://huggingface.co/baichuan-inc/Baichuan-13B-Chat
【GitHub】
https://githuB.com/Baichuan-inc/Baichuan-13B
【Model Scope】
預訓練模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Base/
對話模型:https://modelscope.cn/models/Baichuan-inc/Baichuan-13B-Chat/
— 聯系作者 —
>