重訓「羊駝」大模型并徹底開放商用，UC伯克利博士生：Meta不願做就自己做 - 大酷樂

今天小編分享的科學經驗：重訓「羊駝」大模型并徹底開放商用，UC伯克利博士生：Meta不願做就自己做，歡迎閲讀。

Meta" 羊駝 "（LLaMA）的開源可商用復現品 OpenLLaMA 發布重大更新：

在1T token上訓練出來的130 億參數版本現已正式上線。

至此，這一訓練量和原版羊駝已完全一致。

與此同時，之前發布的 70 億以及 30 億參數版本也完成了 1T token 的訓練，并發布 PyTorch 和 JAX 權重。

可謂 " 一家人整整齊齊 "。

性能測試顯示，OpenLLaMA 在多項任務中的表現都與原始 LLaMA 相當，并且不乏超越的情況。

一個徹底開源且供商用的 LLaMA 競品家族就此誕生了。

目前，OpenLLaMA 在 GitHub 上的标星數已近 5k。

重訓 " 羊駝 "，最香替代品全面開放商用

OpenLLaMA 是 UC 伯克利的博士生Hao Liu發起的項目（Xinyang Geng 擁有同等貢獻，也是該校博士生）。

它在 Together 公司發布的 RedPajama 數據集上訓練，該數據集其實也是 LLaMA 訓練集的復制品，一共包含 1.2T token。

除了數據集不太一樣之外，OpenLLaMA 使用了與原始 LLaMA完全相同的預處理步驟和訓練超參數，包括模型架構、上下文長度、訓練步驟、學習率時間表和優化器，可以説是 " 重訓 " 了一把。

今年 5 月，該團隊率先發布了 70 億參數版本，不過當時訓練 token 還是 3000 億。

按照計劃，如今和原 LLaMA 訓練數據量一致的 130 億參數版本和 70 億、30 億版本一同發布。

據介紹，130 億版本是與Stability AI合作訓練的，後者主要提供計算資源（當初 Stable Diffusion 也是這麼與 Stability AI 合作）。

和另外兩個版本一樣，OpenLLaMA-13B 也以兩種格式發布權重：

一是用于 Hugging Face transformer 的 PyTorch 格式。

使用該格式時需要注意先避免使用 Hugging Face 快速分詞器（tokenizer），因為它的自動轉換功能有時會給出不正确的 tokenization。

所以可以先直接使用 LlamaTokenizer class 來實現，或者用 AutoTokenizer class，将 use_fast 賦為 False。

二是用于 EasyLM 框架的 EasyLM 格式。

在此請注意，與原始 LLaMA 不同，該 OpenLLaMA 的分詞器和權重是完全從頭開始訓練的，因此不再需要獲取原始 LLaMA 的這倆信息。

接下來，在訓練量已達成一致的情況下，看 OpenLLaMA 各規模模型的性能表現如何。

在這裏，作者使用 EleutherAI 發布的自回歸語言模型 few-shot 評估框架（lm-evaluation-harness）對兩只 " 羊駝 " 進行評估，以及還加入了 " 第三者 "：

EleutherAI 在 Pile 數據集上訓練的 60 億參數模型GPT-J，它的訓練 token 數是 5000 億。

需要注意的是，可能是因為不同的評估協定，作者跑出來的 LLaMA 結果與原始 LLaMA 略有不同。

以下是結果：

紅色小方框為 OpenLLaMA 超過或者與原 LLaMA 表現一樣的情況。

在紅框之外，兩者的差距也不大。

而從平均表現來看，OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55，OpenLLaMA-13B 和 LLaMA-13B 也都一樣，為 0.57，主打一個勢均力敵。

與此同時，只有 30 億參數的 OpenLLaMA 平均性能超越 60 億參數的 GPT-J。

Meta 也要發可商用大模型了

特斯拉前 AI 高級總監 Andrej Karpathy 在上個月的微軟 Build 大會的演講上，曾多次表達一個意思：

LLaMA-65b 就是目前最好的開源基礎模型，可惜沒能商用。

現在，650 億的商用平替羊駝雖然還沒出現，130 億和 70 億是已經妥妥安排好了。

不過，也有一則好消息。

就在幾天前，據 The Information 爆料，Meta AI 正計劃發布一個新的 LLM，并且免費供大家商用。

有觀點指出，在如今行業大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 緊閉大門 " 的情況下，Meta 這一做法可能會引發連鎖反應，并且開源模型和閉源模型的差距會越來越小。

就且拭目以待。

關于 OpenLLaMA 的所有相關鏈接：

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

本文參考鏈接還包括：

https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

熱門排行

王治郅：楊瀚森主要的問題是速度他的速度跟郟君昊 | 2025-05-05
貿易戰燒進電影院：特朗普拟重税打擊外國電影習又夏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年寸飛蘭 | 2025-05-05
手機電池突破8000mAh？硅碳技術的回旋镖：「折衛青柏 | 2025-05-05
貸款追高炒黃金的人後悔了！有人一天虧掉6年繁綺文 | 2025-05-05
任天堂對Genki提起Switch 2商标侵權訴訟，後郜萌運 | 2025-05-05
哪吒汽車APP和官網恢復正常知情人士：之前斷袁曼雁 | 2025-05-05
極越汽車 CEO 夏一平名下青島/義烏兩家公司集玲琳 | 2025-05-05
全國經濟第一大省明确，推動組建農商聯合銀行佼昌翰 | 2025-05-05
桑保利：亞馬爾有配合意識&有點像梅西姆巴佩甄正浩 | 2025-05-05
高露現身上海虹橋機場黑色外套點綴亮色愛惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：處理器更新為天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懶癌”發病率上升，定期體檢别忽視幸聽楓 | 2023-05-02
宋慧喬獲百想視後韓素希發圖手動加愛心表賁芳蕤 | 2023-05-02
曹操墓，裏面都有啥？衛青柏 | 2023-05-02
十年了，他們終于要HE！惠惠君 | 2023-05-07
中央部署經濟工作，釋放5大信号郜萌運 | 2023-05-02
高德上線手機彎道會車預警功能習又夏 | 2023-05-02
陳自瑤抱病為愛女做蛋糕慶生，王浩信點贊沒露賁芳蕤 | 2023-05-02
等比例長大的童星，李蘭迪算一個郟君昊 | 2023-05-02
高端國產車：軍車血統，目前電動車越野的“天花謝飛揚 | 2023-05-02
《雲襄傳》終于抬上來啦，男O女A讓人好上頭！集玲琳 | 2023-05-02
這些被抓來做實驗的流浪狗，最終拯救了無數糖集玲琳 | 2023-05-02
21家A股遊戲公司2022年收入651億今年“遊衛青柏 | 2023-05-04
信用風險釋放趨緩，結構性風險需重點關注 — 袁曼雁 | 2023-05-02
與周立波夫婦鬧糾紛成老賴，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京籤署總統令，批準對俄刑法典相關法條的修集玲琳 | 2023-05-02
解除資格！停止一切合作佼昌翰 | 2023-05-02
中銀證券給予南京銀行增持評級袁曼雁 | 2023-05-03
3699起聯想小新mini主機上架 13代酷睿标壓習又夏 | 2023-05-05
前董事長被免，天山生物全面進入“中植系”時惠惠君 | 2023-05-02
瘋成這樣，怎麼還能被全網吹捧？郜萌運 | 2023-05-02
狂吼11次“讓一下”！交警咆哮開道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收購美國第一共和銀行謝飛揚 | 2023-05-02
台劇赢麻了，又來一部8.9 衛青柏 | 2023-05-02
事關農村土地承包和農民權益，《農村土地承包郟君昊 | 2023-05-02
下降45分，上漲35分！34所自劃線院校復試分數線袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好這件事是關鍵習又夏 | 2023-05-05
五一檔沒一個能打的集玲琳 | 2023-05-05
恐怖韓劇下神壇，這次膽小可入袁曼雁 | 2023-05-05
這劇是不是用ChatGPT寫的呀？惠惠君 | 2023-05-02
200户連夜疏散，原因讓人憤怒！“損失超一億”，袁曼雁 | 2023-05-03
性騷擾慣犯，滾出娛樂圈謝飛揚 | 2023-05-05
48歲何炅自曝已老花眼，黃磊睡前認老，《向往的佼昌翰 | 2023-05-02
一個《長月燼明》倒了，《狐妖》《長相思》《惠惠君 | 2023-05-02
張天愛假期曬“酷”存照卷發披肩穿黑色吊嬴覓晴 | 2023-05-02
當年輕人開始不随份子錢袁曼雁 | 2023-05-02
畢滢用8年時間成功逼宮？曾被傳已婚生子的她，幸聽楓 | 2023-05-03
宋慧喬獲視後首次曬照，拿獎杯笑容温柔郜萌運 | 2023-05-02