大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 财经

搞 AI 的是真没钱了

2024-04-06 简体 HK SG TW

今天小编分享的财经经验:搞 AI 的是真没钱了,欢迎阅读。

出品 | 虎嗅科技组

作者 | 王一鹏

头图 | 视觉中国

4 月 5 日上午,一个来自 MIT、普林斯顿等研究机构的华人团队发布了自己的大模型   JetMoE  ,宣布用   10   万美元的训练成本,就可以训练出媲美   LLaMA2   级别的大模型——后者成本高达数十亿美元。贾扬清第一时间进行了转评赞,直指其核心在于   MoE 架构。

此前,MoE   架构始终是一个位于舆论水面下的大模型技术,人们醉心于大模型的技术突破,而以吃瓜的心态看待其背后的成本问题。但当   Stability   AI   CEO   及核心团队相继离职,公司被曝每月运营成本高达 800 万美元以上,完全入不敷出时,大家才真正的认识到:不是中国   AI   圈穷,而是全球   AI   圈都真的没钱了——大模型就像个 " 碎钞机 ",无论硅谷公司,还是中国公司,都难以承受。

因此,MoE   作为一种可以降低运营成本、提升训练效率的架构,骤然成为全世界大模型公司的关注重点。

去年 12 月,Mistral   AI   发布   8x7B-MoE   模型,成为全球首个开源的   MoE   大模型;今年   1   月,Minimax   宣布发布国内首个   MoE   大语言模型   abab6;在接下来的几个月,Google、APUS、达观、阶跃星辰等企业以及马斯克,都纷纷发布了自己的   MoE   模型。考虑到研发周期的问题,至少在   GPT-4   刚发布的时间(2023 年 3 月),有远见的公司就已经确定了   MoE   的架构方向。

即便是 OpenAI  ,当下对其   GPT-4   技术猜测的主流观点也认为,他们一定采用了   MoE   架构。

MoE   不太省心,但确实可以降本

MoE   架构的中文名称是混合专家架构,是神经网络的一种架构模式。它将神经网络拆抽成多个专家子网络,面对一次输入,既可以指定某一位 " 专家 " 来回答,也可以要求多位 " 专家 " 回答,甚至全部参与回答,最终依据权重综合给出结果。

这使得   MoE   架构的可扩展性优秀,开发者可以在一个巨型模型上,继续增加参数量,进行横向扩展。同时因为   MoE   可以选择只启用部分专家子模型,也在保持性能的同时,降低了推理成本。另外   MoE   架构允许数据在多个专家模型之间进行分配和并行处理,因此可以提高模型的训练和推理速度。

听起来全是优点,但是   MoE   架构的训练难度很大。

一个最主要的问题是,MoE   架构很难保证每个 " 专家 " 都能得到充分训练。决定了哪些 " 专家 ",以多大权重参与回答的核心部件是门控网络(Gate   Network)。如果门控网络倾向于选择某些特定的 " 专家 ",可能会导致其他 " 专家 " 得不到充分的训练,从而造成训练不稳定。而且在 MoE 架构中,不同的 " 专家 " 可能会被分配到不同数量的输入样本。如果某些 " 专家 " 被分配的样本过多或过少,可能会导致负载不平衡,影响模型的训练效率和最终性能。

但对于全球   AI   企业,尤其是中国企业而言,这已经是两年来的最好局面了——至少我们可以用軟體技术解决问题,而不是看着芯片和账户干着急。

从实际情况来看,国内   MoE   架构的产品进展也较为乐观。

MiniMax   作为最早发力   MoE   架构的主儿,一直在干闷声发大财的事儿,投资人看重的有场景、有客户等几个要点,MiniMax   都具备。根据其官方为数不多的、对外透露的信息显示,金山办公、小红书、腾讯、小米、阅文集团都是其客户。尽管这类大客户很可能同时采购了多个基础模型服务,但依然显示出   MiniMax   进展好像不错。今年 3 月,阿里被曝参与   MiniMax   下一轮融资,领投 6 亿,据称红杉也承诺将参与本轮融资。某种程度上,这也代表着头部资本对   MoE   这一技术路线的认可。

而就在   4   月   1   日,APUS(麒麟合盛)  放出的信息更加露骨地说明了这一问题——其联合新旦智能训练的大模型 APUS-xDAN   大模型 4.0(MoE)将于近日宣布开源。

在早期放出的信息中,APUS   重点提到了两点:

●   参数规模为 1360 亿,国内开源模型中参数规模最大;

●   是国内首个支持在 4090 低端算力上训练的千亿参数开源大模型;

说白了,便于横向扩展,是事实,但可能不是主要因素,物美价廉,才是核心。

不玩   MoE,就搞小模型

这种降本的决心贯彻的有多彻底,再看看不搞   MoE   架构的厂商就知道了。

面壁智能 2 月份发布了自己的端侧模型   Minicam,官方称该模型以   2B   的尺寸可以超越 Mistral-7B,媲美 Llama2-13B。虎嗅   3   月邀请了面壁智能曾国洋参与   AI   内参会聊到该模型,曾国洋表示,现在业内普遍没有将小尺寸模型的潜力挖掘干净,面壁追求的是如何实现更合理的训练,而不是单纯的堆模型参数量。

从产品定位上来讲,当然可以说这是做端侧模型的应有之义。但从成本价角度而言,这也是除开   MoE   架构外的又一次降本尝试。CEO   李大海在面壁的发布会上重点聊过这个问题:成本是大模型的隐形竞争力。面壁   MiniCPM   在端侧的部署中,可以支持   CPU   推理,同时发布的量化版本,可以做到压缩   75%,性能基本无损。如果使用骁龙   855   芯片,成本约   600   元人民币,按照运行   5   年计算,每秒   7.5   tokens,那么   170   万   tokens   的推理成本需人民币   1   元。成本为   Mistral-Medium   的百分之一。

小模型这套路能走多远,是否因为短期的苟且,导致在   AGI   层面的发展继续落后?如果之前还存在这个疑惑,那么   AI   PC、AI   手机热潮的兴起,多少给大家增加了些信心。

尽管现在   AI   PC、AI   手机是噱头成分居多,真正在   C   端有决定意义的价值点较少。但这趟列车已经绑定了太多的人:高通、英特尔、三星、联想……以及一系列基础模型厂商、模型中间件厂商。某种意义上,这是 " 元宇宙   Plus" 版的概念列车,必须找到终点,也必须驶到终点。与当年元宇宙的情况不同的是,大模型当下的技术发展曲线,仍在陡峭上升中——

至少在   GPT-5   发布前,所有的商业故事,都会如约讲下去。

熱門排行
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們