今天小編分享的科學經驗:重訓「羊駝」大模型并徹底開放商用,UC伯克利博士生:Meta不願做就自己做,歡迎閱讀。
Meta" 羊駝 "(LLaMA)的開源可商用復現品 OpenLLaMA 發布重大更新:
在1T token上訓練出來的130 億參數版本現已正式上線。
至此,這一訓練量和原版羊駝已完全一致。
與此同時,之前發布的 70 億以及 30 億參數版本也完成了 1T token 的訓練,并發布 PyTorch 和 JAX 權重。
可謂 " 一家人整整齊齊 "。
性能測試顯示,OpenLLaMA 在多項任務中的表現都與原始 LLaMA 相當,并且不乏超越的情況。
一個徹底開源且供商用的 LLaMA 競品家族就此誕生了。
目前,OpenLLaMA 在 GitHub 上的标星數已近 5k。
重訓 " 羊駝 ",最香替代品全面開放商用
OpenLLaMA 是 UC 伯克利的博士生Hao Liu發起的項目(Xinyang Geng 擁有同等貢獻,也是該校博士生)。
它在 Together 公司發布的 RedPajama 數據集上訓練,該數據集其實也是 LLaMA 訓練集的復制品,一共包含 1.2T token。
除了數據集不太一樣之外,OpenLLaMA 使用了與原始 LLaMA完全相同的預處理步驟和訓練超參數,包括模型架構、上下文長度、訓練步驟、學習率時間表和優化器,可以說是 " 重訓 " 了一把。
今年 5 月,該團隊率先發布了 70 億參數版本,不過當時訓練 token 還是 3000 億。
按照計劃,如今和原 LLaMA 訓練數據量一致的 130 億參數版本和 70 億、30 億版本一同發布。
據介紹,130 億版本是與Stability AI合作訓練的,後者主要提供計算資源(當初 Stable Diffusion 也是這麼與 Stability AI 合作)。
和另外兩個版本一樣,OpenLLaMA-13B 也以兩種格式發布權重:
一是用于 Hugging Face transformer 的 PyTorch 格式。
使用該格式時需要注意先避免使用 Hugging Face 快速分詞器(tokenizer),因為它的自動轉換功能有時會給出不正确的 tokenization。
所以可以先直接使用 LlamaTokenizer class 來實現,或者用 AutoTokenizer class,将 use_fast 賦為 False。
二是用于 EasyLM 框架的 EasyLM 格式。
在此請注意,與原始 LLaMA 不同,該 OpenLLaMA 的分詞器和權重是完全從頭開始訓練的,因此不再需要獲取原始 LLaMA 的這倆信息。
接下來,在訓練量已達成一致的情況下,看 OpenLLaMA 各規模模型的性能表現如何。
在這裡,作者使用 EleutherAI 發布的自回歸語言模型 few-shot 評估框架(lm-evaluation-harness)對兩只 " 羊駝 " 進行評估,以及還加入了 " 第三者 ":
EleutherAI 在 Pile 數據集上訓練的 60 億參數模型GPT-J,它的訓練 token 數是 5000 億。
需要注意的是,可能是因為不同的評估協定,作者跑出來的 LLaMA 結果與原始 LLaMA 略有不同。
以下是結果:
紅色小方框為 OpenLLaMA 超過或者與原 LLaMA 表現一樣的情況。
在紅框之外,兩者的差距也不大。
而從平均表現來看,OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55,OpenLLaMA-13B 和 LLaMA-13B 也都一樣,為 0.57,主打一個勢均力敵。
與此同時,只有 30 億參數的 OpenLLaMA 平均性能超越 60 億參數的 GPT-J。
Meta 也要發可商用大模型了
特斯拉前 AI 高級總監 Andrej Karpathy 在上個月的微軟 Build 大會的演講上,曾多次表達一個意思:
LLaMA-65b 就是目前最好的開源基礎模型,可惜沒能商用。
現在,650 億的商用平替羊駝雖然還沒出現,130 億和 70 億是已經妥妥安排好了。
不過,也有一則好消息。
就在幾天前,據 The Information 爆料,Meta AI 正計劃發布一個新的 LLM,并且免費供大家商用。
有觀點指出,在如今行業大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 緊閉大門 " 的情況下,Meta 這一做法可能會引發連鎖反應,并且開源模型和閉源模型的差距會越來越小。
就且拭目以待。
關于 OpenLLaMA 的所有相關鏈接:
https://github.com/openlm-research/open_llama
https://huggingface.co/openlm-research/open_llama_13b
本文參考鏈接還包括:
https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and