0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練 - 大酷樂

今天小編分享的科學經驗：0門檻免費商用！孟子3-13B大模型正式開源，萬億token數據訓練，歡迎閲讀。

瀾舟科技官宣：孟子 3-13B 大模型正式開源！

這一主打高性價比的輕量化大模型，面向學術研究完全開放，并支持免費商用。

在 MMLU、GSM8K、HUMAN-EVAL 等各項基準測評估中，孟子 3-13B 都表現出了不錯的性能。

尤其在參數量 20B 以内的輕量化大模型領網域，在中英文語言能力方面尤為突出，數學和編程能力也位于前列。

△以上結果基于 5-shot。

據介紹，孟子 3-13B 大模型是基于 Llama 架構，數據集規模高達3T Tokens。

語料精選自網頁、百科、社交、媒體、新聞，以及高質量的開源數據集。通過在萬億 tokens 上進行多語言語料的繼續訓練，模型的中文能力突出并且兼顧多語言能力。

只需兩步，就能使用孟子 3-13B 大模型了。

首先進行環境配置。

pip install -r requirements.txt

然後快速開始。

import torch

from transformers import AutoModelForCausalLM, AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained ( "Langboat/Mengzi3-13B-Base", use_fast=False, trust_remote_code=True )

model = AutoModelForCausalLM.from_pretrained ( "Langboat/Mengzi3-13B-Base", device_map="auto", trust_remote_code=True )

inputs = tokenizer ( ' 指令：回答以下問題。輸入：介紹一下孟子。輸出：', return_tensors='pt' )

if torch.cuda.is_available ( ) :

inputs = inputs.to ( 'cuda' )

pred = model.generate ( **inputs, max_new_tokens=512, repetition_penalty=1.01, eos_token_id=tokenizer.eos_token_id )

print ( tokenizer.decode ( pred [ 0 ] , skip_special_tokens=True ) )

此外，他們還提供了一個樣例代碼，可用于基礎模型進行單輪互動推理。

cd examples

python examples/base_streaming_gen.py --model model_path --tokenizer tokenizer_path

如果想要進行模型微調，他們也提供了相關檔案和代碼。

事實上，早在 3 月 18 日的瀾舟大模型技術和產品發布會現場，就透露了孟子 3-13B 大模型的諸多細節。

當時他們表示，孟子 3-13B 大模型訓練已經完成。

對于選擇 13B 版本的原因，周明解釋道：

首先，瀾舟明确以服務 ToB 場景為主，ToC 為輔。

實踐發現，ToB 場景使用頻率最高的大模型參數量多為 7B、13B、40B、100B，整體集中在 10B-100B 之間。

其次，在這個區間範圍内，從 ROI（投資回報率）角度來講，既滿足場景需求，又最具性價比。

因此，在很長一段時間内，瀾舟的目标都是在 10B-100B 參數規模範圍内，打造優質的行業大模型。

作為國内最早一批大模型創業團隊，去年 3 月，瀾舟就發布了孟子 GPT V1（MChat）。

今年 1 月，孟子大模型 GPT V2（含孟子大模型 - 标準、孟子大模型 - 輕量、孟子大模型 - 金融、孟子大模型 - 編碼）對公眾開放。

好了，感興趣的朋友可戳下方鏈接體驗一下。

GitHub 鏈接：

https://github.com/Langboat/Mengzi3

HuggingFace：

https://huggingface.co/Langboat/Mengzi3-13B-Base

ModelScope：

https://www.modelscope.cn/models/langboat/Mengzi3-13B-Base

Wisemodel：

https://wisemodel.cn/models/Langboat/Mengzi3-13B-Base

熱門排行

高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
解除資格！停止一切合作佼昌翰 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02