大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

消费级显卡可用!李开复零一万物发布并开源90亿参数Yi模型,代码数学能力史上最强

2024-03-09 简体 HK SG TW

今天小编分享的科学经验:消费级显卡可用!李开复零一万物发布并开源90亿参数Yi模型,代码数学能力史上最强,欢迎阅读。

李开复旗下 AI 公司零一万物,又一位大模型选手登场:

90 亿参数 Yi-9B。

它号称 Yi 系列中的 " 理科状元 "," 恶补 " 了代码数学,同时综合能力也没落下。

在一系列类似规模的开源模型(包括 Mistral-7B、SOLAR-10.7B、Gemma-7B、DeepSeek-Coder-7B-Base-v1.5 等)中,表现最佳。

老规矩,发布即开源,尤其对开发者友好:

Yi-9B(BF 16) 和其量化版 Yi-9B(Int8)都能在消费级显卡上部署。

一块 RTX 4090、一块 RTX 3090 就可以。

深度扩增 + 多阶段增量训练而成

零一万物的 Yi 家族此前已经发布了 Yi-6B 和 Yi-34B 系列。

这两者都是在 3.1T token 中英文数据上进行的预训练,Yi-9B 则在此基础上,增加了 0.8T token 继续训练而成。

数据的截止日期是2023 年 6 月。

开头提到,Yi-9B 最大的进步在于数学和代码,那么这俩能力究竟如何提升呢?

零一万物介绍:

单靠增加数据量并没法达到预期。

靠的是先增加模型大小,在 Yi-6B 的基础上增至 9B,再进行多阶段数据增量训练。

首先,怎么个模型大小增加法?

  一个前提是,团队通过分析发现:

Yi-6B 训练得已经很充分,再怎么新增更多 token 练效果可能也不会往上了,所以考虑扩增它的大小。 ( 下图部門不是 TB 而是 B )

怎么增?答案是深度扩增。

对原模型进行宽度扩增会带来更多的性能损失,通过选择合适的 layer 对模型进行深度扩增后,新增 layer 的 input/output cosine 越接近 1.0,即扩增后的模型性能越能保持原有模型的性能,模型性能损失微弱。

依照此思路,零一万物选择复制 Yi-6B 相对靠后的 16 层(12-28 层 ) ,组成了 48 层的 Yi-9B。

实验显示,这种方法比用 Solar-10.7B 模型复制中间的 16 层(8-24 层)性能更优。

其次,怎么个多阶段训练法?

答案是先增加 0.4T 包含文本和代码的数据,但数据配比与 Yi-6B 一样。

然后增加另外的 0.4T 数据,同样包括文本和代码,但重点增加代码和数学数据的比例。

(悟了,就和我们在大模型提问里的诀窍 "think step by step" 思路一样)

这两步操作完成后,还没完,团队还参考两篇论文(An Empirical Model of Large-Batch Training 和 Don ’ t Decay the Learning Rate, Increase the Batch Size)的思路,优化了调参方法。

即从固定的学习率开始,每当模型 loss 停止下降时就增加 batch size,使其下降不中断,让模型学习得更加充分。

最终,Yi-9B 实际共包含 88 亿参数,达成 4k 上下文长度。

Yi 系列中代码和数学能力最强

实测中,零一万物使用 greedy decoding 的生成方式(即每次选择概率值最大的单词)来进行测试。

参评模型为 DeepSeek-Coder、DeepSeek-Math、Mistral-7B、SOLAR-10.7B 和 Gemma-7B:

(1)DeepSeek-Coder,来自国内的深度求索公司,其 33B 的指令调优版本人类评估超越 GPT-3.5-turbo,7B 版本性能则能达到 CodeLlama-34B 的性能。

DeepSeek-Math则靠 7B 参数干翻 GPT-4,震撼整个开源社区。

(2)SOLAR-10.7B来自韩国的 Upstage AI,2023 年 12 月诞生,性能超越 Mixtral-8x7B-Instruct。

(3)Mistral-7B则是首个开源 MoE 大模型,达到甚至超越了 Llama 2 70B 和 GPT-3.5 的水平。

(4)Gemma-7B来自谷歌,零一万物指出:

其有效参数量其实和 Yi-9B 一个等级。

(两者命名准则不一样,前者只用了 Non-Embedding 参数,后者用的是全部参数量并向上取整)

结果如下。

首先在代码任务上,Yi-9B 性能仅次于 DeepSeek-Coder-7B,其余四位全部被 KO。

在数学能力上,Yi-9B 性能仅次于 DeepSeek-Math-7B,超越其余四位。

综合能力也不赖。

其性能在尺寸相近的开源模型中最好,超越了其余全部五位选手。

最后,还测了常识和推理能力:

结果是 Yi-9B 与 Mistral-7B、SOLAR-10.7B 和 Gemma-7B 不相上下。

以及语言能力,不仅英文不错,中文也是广受好评:

最最后,看完这些,有网友表示:已经迫不及待想试试了。

还有人则替 DeepSeek 捏了一把汗:

赶紧加强你们的 " 比赛 " 吧。全面主导地位已经没有了 ==

传送门在此:

https://huggingface.co/01-ai/Yi-9B

参考链接:

https://mp.weixin.qq.com/s/0CXIBlCZ7DJ2XjYT6Rm8tw

https://twitter.com/01AI_Yi/status/1765422092663849368

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們