今天小编分享的科学经验:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观,欢迎阅读。
" 只需 "10 万美元,训练 Llama-2 级别的大模型。
尺寸更小但性能不减的MoE模型来了:
它叫JetMoE,来自 MIT、普林斯顿等研究机构。
性能妥妥超过同等规模的 Llama-2。
△贾扬清转发
要知道,后者可是数十亿美元级别的投入成本。
JetMoE 发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级 GPU就能进行微调。
不得说,大模型的打造成本,真的比人们想的要便宜更多了。
Ps. Stable Diffusion 前老板 Emad 也点了赞:
10 万美刀实现 Llama-2 性能
JetMoE 启发于 ModuleFormer 的稀疏激活架构。
(ModuleFormer,一种基于稀疏专家混合 ( SMoE ) 的模块化架构,可提高大模型效率和灵活性,去年 6 月提出)
它的注意力层中仍然使用了 MoE:
80 亿参数的 JetMoE 一共有 24 个区块,每块包含 2 个 MoE 层,分别是注意力头混合 ( MoA ) 和 MLP 专家混合 ( MoE)。
每个 MoA 和 MoE 层又有 8 个专家,每次输入 token 激活 2 个。
JetMoE-8B 使用公开数据集中的1.25T token进行训练,学习率 5.0 x 10-4,全局 batch size 为 4M token。
具体训练方案遵循 MiniCPM(来自面壁智能,2B 模型就能赶超 Mistral-7B)的思路,共包含两阶段:
第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的 1 万亿个 token 进行训练,这些数据集包括 RefinedWeb、Pile、Github data 等等。
第二阶段则使用指数学习率衰减,用 2500 亿个 token 训练来自第一阶段数据集和超高质量开源数据集的 token。
最终,团队使用96 × H100的 GPU 集群,花费 2 周时间、约 8 万美元搞定 JetMoE-8B。
更多技术细节将在不久后发布的技术报告上揭露。
而在推理过程中,由于 JetMoE-8B 仅具有22 亿个激活参数,因此计算成本大大降低——
同时,它还收获了不错的性能表现。
如下图所示:
JetMoE-8B 在 8 个评测基准上获得了 5 个 sota(包括大模型竞技场 Open LLM Leaderboard),超过 LLaMA-13B、LLaMA2-7B 和 DeepseekMoE-16B。
在 MT-Bench 基准上得分 6.681,也超过了 130 亿参数的 LLaMA2、Vicuna 等模型。
作者介绍
JetMoE 一共 4 位作者,分别是:
Yikang Shen
MIT-IBM Watson Lab 研究员,研究方向 NLP。
本硕毕业于北航,博士经历于 Yoshua Bengio 创办的 Mila 研究机构。
国振 ( Gavin Guo )
MIT 博士在读, 研究方向为 3D 成像的数据高效机器学习。
UC 伯克利本科毕业,去年夏天作为学生研究员加入 MIT-IBM Watson Lab,导师为 Yikang Shen 等人。
蔡天乐
普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是 Together.ai 的兼职研究员,与 Tri Dao 合作。
Zengyi Qin
MIT 博士在读,同时在创业,MyShell的 AI 研发主管。
这家公司刚刚融资了 1100 万美元,投资者包括 Transformer 的作者。
传送门:
https://github.com/myshell-ai/JetMoE
参考链接:
https://twitter.com/jiayq/status/1775935845205463292
— 完 —
【 火热报名中】中国 AIGC 产业峰会
定档 4 月 17 日
峰会已经邀请到数位代表技术、产品、投资、用户等领網域嘉宾,共论生成式 AI 产业最新变革趋势。
最新确认嘉宾包括:商汤科技杨帆、轻松集团高玉石、印象笔记唐毅、蚂蚁集团李建国等,。
峰会将全程线上下同步直播,欢迎预约直播 ⬇️
点这里关注我,记得标星噢
一键三连「分享」、「点赞」和「在看」
科技前沿进展日日相见 ~
>