0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練

今天小編分享的科學經驗：0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練，歡迎閱讀。

瀾舟科技官宣：孟子 3-13B 大模型正式開源！

這一主打高性價比的輕量化大模型，面向學術研究完全開放，并支持免費商用。

在 MMLU、GSM8K、HUMAN-EVAL 等各項基準測評估中，孟子 3-13B 都表現出了不錯的性能。

尤其在參數量 20B 以内的輕量化大模型領網域，在中英文語言能力方面尤為突出，數學和編程能力也位于前列。

△以上結果基于 5-shot。

據介紹，孟子 3-13B 大模型是基于 Llama 架構，數據集規模高達3T Tokens。

語料精選自網頁、百科、社交、媒體、新聞，以及高質量的開源數據集。通過在萬億 tokens 上進行多語言語料的繼續訓練，模型的中文能力突出并且兼顧多語言能力。

只需兩步，就能使用孟子 3-13B 大模型了。

首先進行環境配置。

pip install -r requirements.txt

然後快速開始。

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained ( "Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True )

model = AutoModelForCausalLM.from_pretrained ( "Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True )

inputs = tokenizer ( ' 指令：回答以下問題。輸入：介紹一下孟子。輸出：', return_tensors='pt' )

if torch.cuda.is_available ( ) :

inputs = inputs.to ( 'cuda' )

pred = model.generate ( **inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id )

print ( tokenizer.decode ( pred [ 0 ] , skip_special_tokens=True ) )

此外，他們還提供了一個樣例代碼，可用于基礎模型進行單輪互動推理。

cd examples

python examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

如果想要進行模型微調，他們也提供了相關檔案和代碼。

事實上，早在 3 月 18 日的瀾舟大模型技術和產品發布會現場，就透露了孟子 3-13B 大模型的諸多細節。

當時他們表示，孟子 3-13B 大模型訓練已經完成。

對于選擇 13B 版本的原因，周明解釋道：

首先，瀾舟明确以服務 ToB 場景為主，ToC 為輔。

實踐發現，ToB 場景使用頻率最高的大模型參數量多為 7B、13B、40B、100B，整體集中在 10B-100B 之間。

其次，在這個區間範圍内，從 ROI（投資回報率）角度來講，既滿足場景需求，又最具性價比。

因此，在很長一段時間内，瀾舟的目标都是在 10B-100B 參數規模範圍内，打造優質的行業大模型。

作為國内最早一批大模型創業團隊，去年 3 月，瀾舟就發布了孟子 GPT V1（MChat）。

今年 1 月，孟子大模型 GPT V2（含孟子大模型 - 标準、孟子大模型 - 輕量、孟子大模型 - 金融、孟子大模型 - 編碼）對公眾開放。

好了，感興趣的朋友可戳下方鏈接體驗一下。

GitHub 鏈接：

https://github.com/Langboat/Mengzi3

HuggingFace：

https://huggingface.co/Langboat/Mengzi3-13B-Base

ModelScope：

https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base

Wisemodel：

https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base