重訓「羊駝」大模型并徹底開放商用，UC伯克利博士生：Meta不願做就自己做

今天小編分享的科學經驗：重訓「羊駝」大模型并徹底開放商用，UC伯克利博士生：Meta不願做就自己做，歡迎閱讀。

Meta" 羊駝 "（LLaMA）的開源可商用復現品 OpenLLaMA 發布重大更新：

在1T token上訓練出來的130 億參數版本現已正式上線。

至此，這一訓練量和原版羊駝已完全一致。

與此同時，之前發布的 70 億以及 30 億參數版本也完成了 1T token 的訓練，并發布 PyTorch 和 JAX 權重。

可謂 " 一家人整整齊齊 "。

性能測試顯示，OpenLLaMA 在多項任務中的表現都與原始 LLaMA 相當，并且不乏超越的情況。

一個徹底開源且供商用的 LLaMA 競品家族就此誕生了。

目前，OpenLLaMA 在 GitHub 上的标星數已近 5k。

重訓 " 羊駝 "，最香替代品全面開放商用

OpenLLaMA 是 UC 伯克利的博士生Hao Liu發起的項目（Xinyang Geng 擁有同等貢獻，也是該校博士生）。

它在 Together 公司發布的 RedPajama 數據集上訓練，該數據集其實也是 LLaMA 訓練集的復制品，一共包含 1.2T token。

除了數據集不太一樣之外，OpenLLaMA 使用了與原始 LLaMA完全相同的預處理步驟和訓練超參數，包括模型架構、上下文長度、訓練步驟、學習率時間表和優化器，可以說是 " 重訓 " 了一把。

今年 5 月，該團隊率先發布了 70 億參數版本，不過當時訓練 token 還是 3000 億。

按照計劃，如今和原 LLaMA 訓練數據量一致的 130 億參數版本和 70 億、30 億版本一同發布。

據介紹，130 億版本是與Stability AI合作訓練的，後者主要提供計算資源（當初 Stable Diffusion 也是這麼與 Stability AI 合作）。

和另外兩個版本一樣，OpenLLaMA-13B 也以兩種格式發布權重：

一是用于 Hugging Face transformer 的 PyTorch 格式。

使用該格式時需要注意先避免使用 Hugging Face 快速分詞器（tokenizer），因為它的自動轉換功能有時會給出不正确的 tokenization。

所以可以先直接使用 LlamaTokenizer class 來實現，或者用 AutoTokenizer class，将 use_fast 賦為 False。

二是用于 EasyLM 框架的 EasyLM 格式。

在此請注意，與原始 LLaMA 不同，該 OpenLLaMA 的分詞器和權重是完全從頭開始訓練的，因此不再需要獲取原始 LLaMA 的這倆信息。

接下來，在訓練量已達成一致的情況下，看 OpenLLaMA 各規模模型的性能表現如何。

在這裡，作者使用 EleutherAI 發布的自回歸語言模型 few-shot 評估框架（lm-evaluation-harness）對兩只 " 羊駝 " 進行評估，以及還加入了 " 第三者 "：

EleutherAI 在 Pile 數據集上訓練的 60 億參數模型GPT-J，它的訓練 token 數是 5000 億。

需要注意的是，可能是因為不同的評估協定，作者跑出來的 LLaMA 結果與原始 LLaMA 略有不同。

以下是結果：

紅色小方框為 OpenLLaMA 超過或者與原 LLaMA 表現一樣的情況。

在紅框之外，兩者的差距也不大。

而從平均表現來看，OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55，OpenLLaMA-13B 和 LLaMA-13B 也都一樣，為 0.57，主打一個勢均力敵。

與此同時，只有 30 億參數的 OpenLLaMA 平均性能超越 60 億參數的 GPT-J。

Meta 也要發可商用大模型了

特斯拉前 AI 高級總監 Andrej Karpathy 在上個月的微軟 Build 大會的演講上，曾多次表達一個意思：

LLaMA-65b 就是目前最好的開源基礎模型，可惜沒能商用。

現在，650 億的商用平替羊駝雖然還沒出現，130 億和 70 億是已經妥妥安排好了。

不過，也有一則好消息。

就在幾天前，據 The Information 爆料，Meta AI 正計劃發布一個新的 LLM，并且免費供大家商用。

有觀點指出，在如今行業大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 緊閉大門 " 的情況下，Meta 這一做法可能會引發連鎖反應，并且開源模型和閉源模型的差距會越來越小。

就且拭目以待。

關于 OpenLLaMA 的所有相關鏈接：

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

本文參考鏈接還包括：

https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and