重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做 - 大酷樂

今天小编分享的科学经验：重训「羊驼」大模型并彻底开放商用，UC伯克利博士生：Meta不愿做就自己做，欢迎阅读。

Meta" 羊驼 "（LLaMA）的开源可商用复现品 OpenLLaMA 发布重大更新：

在1T token上训练出来的130 亿参数版本现已正式上线。

至此，这一训练量和原版羊驼已完全一致。

与此同时，之前发布的 70 亿以及 30 亿参数版本也完成了 1T token 的训练，并发布 PyTorch 和 JAX 权重。

可谓 " 一家人整整齐齐 "。

性能测试显示，OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当，并且不乏超越的情况。

一个彻底开源且供商用的 LLaMA 竞品家族就此诞生了。

目前，OpenLLaMA 在 GitHub 上的标星数已近 5k。

重训 " 羊驼 "，最香替代品全面开放商用

OpenLLaMA 是 UC 伯克利的博士生Hao Liu发起的项目（Xinyang Geng 拥有同等贡献，也是该校博士生）。

它在 Together 公司发布的 RedPajama 数据集上训练，该数据集其实也是 LLaMA 训练集的复制品，一共包含 1.2T token。

除了数据集不太一样之外，OpenLLaMA 使用了与原始 LLaMA完全相同的预处理步骤和训练超参数，包括模型架构、上下文长度、训练步骤、学习率时间表和优化器，可以说是 " 重训 " 了一把。

今年 5 月，该团队率先发布了 70 亿参数版本，不过当时训练 token 还是 3000 亿。

按照计划，如今和原 LLaMA 训练数据量一致的 130 亿参数版本和 70 亿、30 亿版本一同发布。

据介绍，130 亿版本是与Stability AI合作训练的，后者主要提供计算资源（当初 Stable Diffusion 也是这么与 Stability AI 合作）。

和另外两个版本一样，OpenLLaMA-13B 也以两种格式发布权重：

一是用于 Hugging Face transformer 的 PyTorch 格式。

使用该格式时需要注意先避免使用 Hugging Face 快速分词器（tokenizer），因为它的自动转换功能有时会给出不正确的 tokenization。

所以可以先直接使用 LlamaTokenizer class 来实现，或者用 AutoTokenizer class，将 use_fast 赋为 False。

二是用于 EasyLM 框架的 EasyLM 格式。

在此请注意，与原始 LLaMA 不同，该 OpenLLaMA 的分词器和权重是完全从头开始训练的，因此不再需要获取原始 LLaMA 的这俩信息。

接下来，在训练量已达成一致的情况下，看 OpenLLaMA 各规模模型的性能表现如何。

在这里，作者使用 EleutherAI 发布的自回归语言模型 few-shot 评估框架（lm-evaluation-harness）对两只 " 羊驼 " 进行评估，以及还加入了 " 第三者 "：

EleutherAI 在 Pile 数据集上训练的 60 亿参数模型GPT-J，它的训练 token 数是 5000 亿。

需要注意的是，可能是因为不同的评估協定，作者跑出来的 LLaMA 结果与原始 LLaMA 略有不同。

以下是结果：

红色小方框为 OpenLLaMA 超过或者与原 LLaMA 表现一样的情况。

在红框之外，两者的差距也不大。

而从平均表现来看，OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55，OpenLLaMA-13B 和 LLaMA-13B 也都一样，为 0.57，主打一个势均力敌。

与此同时，只有 30 亿参数的 OpenLLaMA 平均性能超越 60 亿参数的 GPT-J。

Meta 也要发可商用大模型了

特斯拉前 AI 高级总监 Andrej Karpathy 在上个月的微软 Build 大会的演讲上，曾多次表达一个意思：

LLaMA-65b 就是目前最好的开源基础模型，可惜没能商用。

现在，650 亿的商用平替羊驼虽然还没出现，130 亿和 70 亿是已经妥妥安排好了。

不过，也有一则好消息。

就在几天前，据 The Information 爆料，Meta AI 正计划发布一个新的 LLM，并且免费供大家商用。

有观点指出，在如今行业大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 紧闭大门 " 的情况下，Meta 这一做法可能会引发连锁反应，并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于 OpenLLaMA 的所有相关链接：

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括：

https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

熱門排行

王治郅：杨瀚森主要的问题是速度他的速度跟郟君昊 | 2025-05-05
贸易战烧进电影院：特朗普拟重税打击外国电影習又夏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年寸飛蘭 | 2025-05-05
手机电池突破8000mAh？硅碳技术的回旋镖：「折衛青柏 | 2025-05-05
贷款追高炒黄金的人后悔了！有人一天亏掉6年繁綺文 | 2025-05-05
任天堂对Genki提起Switch 2商标侵权诉讼，后郜萌運 | 2025-05-05
哪吒汽车APP和官网恢复正常知情人士：之前断袁曼雁 | 2025-05-05
极越汽车 CEO 夏一平名下青岛/义乌两家公司集玲琳 | 2025-05-05
全国经济第一大省明确，推动组建农商联合银行佼昌翰 | 2025-05-05
桑保利：亚马尔有配合意识&有点像梅西姆巴佩甄正浩 | 2025-05-05
高露现身上海虹桥机场黑色外套点缀亮色爱惠惠君 | 2023-05-02
《歧路旅人2》：向光而生衛青柏 | 2023-05-02
vivo X90S曝光：处理器更新为天玑9200+ 安卓最袁曼雁 | 2023-05-05
“懒癌”发病率上升，定期体检别忽视幸聽楓 | 2023-05-02
宋慧乔获百想视后韩素希发图手动加爱心表賁芳蕤 | 2023-05-02
曹操墓，里面都有啥？衛青柏 | 2023-05-02
十年了，他们终于要HE！惠惠君 | 2023-05-07
中央部署经济工作，释放5大信号郜萌運 | 2023-05-02
高德上线手机弯道会车预警功能習又夏 | 2023-05-02
陈自瑶抱病为爱女做蛋糕庆生，王浩信点赞没露賁芳蕤 | 2023-05-02
等比例长大的童星，李兰迪算一个郟君昊 | 2023-05-02
高端国产车：军车血统，目前电动车越野的“天花謝飛揚 | 2023-05-02
《云襄传》终于抬上来啦，男O女A让人好上头！集玲琳 | 2023-05-02
这些被抓来做实验的流浪狗，最终拯救了无数糖集玲琳 | 2023-05-02
21家A股游戏公司2022年收入651亿今年“游衛青柏 | 2023-05-04
信用风险释放趋缓，结构性风险需重点关注 — 袁曼雁 | 2023-05-02
与周立波夫妇闹纠纷成老赖，唐爽被司法拘留15 寸飛蘭 | 2023-05-05
普京签署总统令，批准对俄刑法典相关法条的修集玲琳 | 2023-05-02
解除资格！停止一切合作佼昌翰 | 2023-05-02
中银证券给予南京银行增持评级袁曼雁 | 2023-05-03
3699起联想小新mini主机上架 13代酷睿标压習又夏 | 2023-05-05
前董事长被免，天山生物全面进入“中植系”时惠惠君 | 2023-05-02
疯成这样，怎么还能被全网吹捧？郜萌運 | 2023-05-02
狂吼11次“让一下”！交警咆哮开道嘶吼到吐寸飛蘭 | 2023-05-03
摩根大通收购美国第一共和银行謝飛揚 | 2023-05-02
台剧赢麻了，又来一部8.9 衛青柏 | 2023-05-02
事关农村土地承包和农民权益，《农村土地承包郟君昊 | 2023-05-02
下降45分，上涨35分！34所自划线院校复试分数线袁曼雁 | 2023-05-07
"三高"已盯上青少年，做好这件事是关键習又夏 | 2023-05-05
五一档没一个能打的集玲琳 | 2023-05-05
恐怖韩剧下神坛，这次胆小可入袁曼雁 | 2023-05-05
这剧是不是用ChatGPT写的呀？惠惠君 | 2023-05-02
200户连夜疏散，原因让人愤怒！“损失超一亿”，袁曼雁 | 2023-05-03
性骚扰惯犯，滚出娱乐圈謝飛揚 | 2023-05-05
48岁何炅自曝已老花眼，黄磊睡前认老，《向往的佼昌翰 | 2023-05-02
一个《长月烬明》倒了，《狐妖》《长相思》《惠惠君 | 2023-05-02
张天爱假期晒“酷”存照卷发披肩穿黑色吊嬴覓晴 | 2023-05-02
当年轻人开始不随份子钱袁曼雁 | 2023-05-02
毕滢用8年时间成功逼宫？曾被传已婚生子的她，幸聽楓 | 2023-05-03
宋慧乔获视后首次晒照，拿奖杯笑容温柔郜萌運 | 2023-05-02