大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做

2023-06-22 简体 HK SG TW

今天小编分享的科学经验:重训「羊驼」大模型并彻底开放商用,UC伯克利博士生:Meta不愿做就自己做,欢迎阅读。

Meta" 羊驼 "(LLaMA)的开源可商用复现品 OpenLLaMA 发布重大更新:

在1T token上训练出来的130 亿参数版本现已正式上线。

至此,这一训练量和原版羊驼已完全一致。

与此同时,之前发布的 70 亿以及 30 亿参数版本也完成了 1T token 的训练,并发布 PyTorch 和 JAX 权重。

可谓 " 一家人整整齐齐 "。

性能测试显示,OpenLLaMA 在多项任务中的表现都与原始 LLaMA 相当,并且不乏超越的情况。

一个彻底开源且供商用的 LLaMA 竞品家族就此诞生了。

目前,OpenLLaMA 在 GitHub 上的标星数已近 5k。

重训 " 羊驼 ",最香替代品全面开放商用

OpenLLaMA 是 UC 伯克利的博士生Hao Liu发起的项目(Xinyang Geng 拥有同等贡献,也是该校博士生)。

它在 Together 公司发布的 RedPajama 数据集上训练,该数据集其实也是 LLaMA 训练集的复制品,一共包含 1.2T token。

除了数据集不太一样之外,OpenLLaMA 使用了与原始 LLaMA完全相同的预处理步骤和训练超参数,包括模型架构、上下文长度、训练步骤、学习率时间表和优化器,可以说是 " 重训 " 了一把。

今年 5 月,该团队率先发布了 70 亿参数版本,不过当时训练 token 还是 3000 亿。

按照计划,如今和原 LLaMA 训练数据量一致的 130 亿参数版本和 70 亿、30 亿版本一同发布。

据介绍,130 亿版本是与Stability AI合作训练的,后者主要提供计算资源(当初 Stable Diffusion 也是这么与 Stability AI 合作)。

和另外两个版本一样,OpenLLaMA-13B 也以两种格式发布权重:

一是用于 Hugging Face transformer 的 PyTorch 格式。

使用该格式时需要注意先避免使用 Hugging Face 快速分词器(tokenizer),因为它的自动转换功能有时会给出不正确的 tokenization。

所以可以先直接使用 LlamaTokenizer class 来实现,或者用 AutoTokenizer class,将 use_fast 赋为 False。

二是用于 EasyLM 框架的 EasyLM 格式。

在此请注意,与原始 LLaMA 不同,该 OpenLLaMA 的分词器和权重是完全从头开始训练的,因此不再需要获取原始 LLaMA 的这俩信息。

接下来,在训练量已达成一致的情况下,看 OpenLLaMA 各规模模型的性能表现如何。

在这里,作者使用 EleutherAI 发布的自回归语言模型 few-shot 评估框架(lm-evaluation-harness)对两只 " 羊驼 " 进行评估,以及还加入了 " 第三者 ":

EleutherAI 在 Pile 数据集上训练的 60 亿参数模型GPT-J,它的训练 token 数是 5000 亿。

需要注意的是,可能是因为不同的评估協定,作者跑出来的 LLaMA 结果与原始 LLaMA 略有不同。

以下是结果:

红色小方框为 OpenLLaMA 超过或者与原 LLaMA 表现一样的情况。

在红框之外,两者的差距也不大。

而从平均表现来看,OpenLLaMA-7B 和 LLaMA-7B 得分都是 0.55,OpenLLaMA-13B 和 LLaMA-13B 也都一样,为 0.57,主打一个势均力敌。

与此同时,只有 30 亿参数的 OpenLLaMA 平均性能超越 60 亿参数的 GPT-J。

Meta 也要发可商用大模型了

特斯拉前 AI 高级总监 Andrej Karpathy 在上个月的微软 Build 大会的演讲上,曾多次表达一个意思:

LLaMA-65b 就是目前最好的开源基础模型,可惜没能商用。

现在,650 亿的商用平替羊驼虽然还没出现,130 亿和 70 亿是已经妥妥安排好了。

不过,也有一则好消息。

就在几天前,据 The Information 爆料,Meta AI 正计划发布一个新的 LLM,并且免费供大家商用。

有观点指出,在如今行业大佬如谷歌 Bard 和 OpenAI ChatGPT 都 " 紧闭大门 " 的情况下,Meta 这一做法可能会引发连锁反应,并且开源模型和闭源模型的差距会越来越小。

就且拭目以待。

关于 OpenLLaMA 的所有相关链接:

https://github.com/openlm-research/open_llama

https://huggingface.co/openlm-research/open_llama_13b

本文参考链接还包括:

https://www.artisana.ai/articles/metas-plan-to-offer-free-commercial-ai-models-puts-pressure-on-google-and

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們