大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

大模型的效率腾飞,彩云科技做对了什么?

2024-11-16 简体 HK SG TW

今天小编分享的科学经验:大模型的效率腾飞,彩云科技做对了什么?,欢迎阅读。

对于绝大多数 AI 创业者来说,AGI 的技术信仰是月亮,商业化能赚到钱的应用则是六便士,而一家中国公司,却将月亮和六便士都握在了手中。

彩云科技的 CEO 袁行远,一直将 AGI 作为自己的终生目标。大模型被认为是通往 AGI 之路,所以彩云科技决心为这条 AGI 之路扫清阻碍,通过优化 Transformer 架构,助力大模型效率提升,为此开发出 DCFormer 全新通用模型架构。

敢于啃最难啃的骨头,让彩云科技与许多只敢停留在应用层的 AI 公司,形成了鲜明对比。

这并不意味着彩云科技全是一群离群索居、不食人间烟火的极客。他们也打造了 AI 时代的爆款应用,如彩云小梦、彩云小译和彩云天气。其中 2021 年上线的彩云小梦 1.0,是全球领先的 AIRPG 平台,同时发布了海外版 Dreamily,目前已经吸引了 60% 中国大陆用户、30% 欧美用户、10% 东南亚用户,在平台上进行 AI 写作。

可以看到,彩云科技的 AI 商业化表现也很出色,是国内为数不多能够实现盈利的 AI 公司。

只追求月亮会饿死,只追求商业化会活得庸俗。在 AI 的理想与现实之间,彩云科技究竟是如何找到平衡点的?

AGI 通用人工智能,被认为是人工智能领網域的圣杯。而大模型,是目前通往 AGI 的必由之路。2023 年大模型技术火爆全球,但技术进化才刚刚开始。比如大模型的核心技术突破—— Transformer 架构,就有一系列问题有待解决。

想摘下 AGI 的圣杯,AI 行业必须先跨越 Transformer 架构的瓶颈:

1. 效率瓶颈。大模型在并行计算过程中需要频繁重写检查点(checkpoint),延长了训练周期。增强 Transformer 架构的计算效率,可以大幅缩减计算时间,提升大模型的开发效率。

2. 能源瓶颈。大模型参数规模迈向超万亿,会消耗巨额电力资源,有新闻报道,一个十万亿或五十万亿参数的大模型就能用光一座小城市的所有电量。为了减少耗电量和能源负担,提升大模型的计算效率,缩短计算时间,已经刻不容缓。

3. 普及瓶颈。一味追求 scale-up 的大模型技术,对算力、存储、传输、运维等各个资源的需求也直线上升,会带来高昂的落地成本和部署难度。AI 的广泛应用和普及,才能推动各行各业智能化,所以大模型必须从追求 " 变大 " 到 " 变聪明 ",底层 Transformer 架构的优化势在必行。

正如袁行远所说," 没有(计算)效率的提升,AI 就是镜花水月 "。

为了有一天人类能真正将 AGI 这枚月亮抱在怀里,彩云科技从一开始就瞄准了底层架构,主动担起了优化 Transformer 架构的技术挑战,也成为在这一领網域率先取得显著成果的中国公司。

2024 年 5 月,彩云科技全新大模型论文《Improving Transformers with Dynamically Composable Multi-Head Attention》发布在 arXiv 平台,并顺利被 AI 顶会 ICML2024 收录,论文评分高达 7 分,远高于今年平均分。同时受邀在今年 7 月登台发表演讲,成为 9473 篇论文中唯二斩获 Oral 论文的中国企业,另一家是华为。

大家想必都很好奇,论文中发布的 DCFormer 架构到底有什么过人之处?

我们可以把大模型训练,看作是一个大型复杂任务,需要很多个打工人(注意力头),背着自己的参数集和数据在干活。

而 Transformer 的核心组件——多头注意力模块(MHA),将查找选择回路和变换回路给绑定在一块儿了,交给同一个注意力头。试想一下,当一个打工人既得关注查找,又得关注变换,专注性就会受到损害,而且完成的工作大概率也跟别人有重复,这就降低了整个组织的效率。

那更合理的办法是什么呢?当然就是多雇些人、专事专办呗。让不同的 " 注意力头 " 关注不同方面,一群专业的人灵活协作,干的活效率更高,质量也更好。

所以 DCFormer 框架,就是给注意力头 " 减负 ",来提高大模型的效率。

彩云科技提出的可动态组合的多头注意力(DCMHA),解除了 MHA 注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合。这就为 DCFormer 框架带来了几个变化:

1. 灵活性提高。由于 DCMHA 允许根据输入动态组合不同的查找和变换回路,让应用了 DCFormer 的模型,能够更灵活地处理复杂任务。

2. 表达能力提高。MHA 的固定绑定导致模型无法充分捕捉输入数据的多个不同特性,表达能力也受到影响。DCMHA 从根本上提升了模型的表达能力。

3. 效率提高。查找和变换被固定绑定,会导致不同的注意力头学习到相似的信息,造成功能上的重复冗余,不仅降低了计算效率,还会浪费计算资源。通过可动态组合的多头注意力(DCMHA)解绑之后,DCFormer 框架实现了对 Transformer 架构 1.7 — 2 倍的提升,也可以让模型成本进一步下降。

总结一下,DCFormer 框架从底层改变了注意力头的组合方式。如果说打破 Transformer 计算瓶颈,加速 AGI 进程,是彩云科技的逐月之旅。那么 DCFormer 框架,就是彩云科技为梦想所打造的一座天梯,让大模型在上面实现了效率、性能、成本优化等多方面的飞跃。

沿着 DCFormer 的天梯望过去,一个大模型为核心的 AI 时代,好像离我们真的不远了。

避免这一轮大模型的 AI 浪潮走向泡沫,必须让技术致用,形成商业闭环。赚到六便士,是 AI 获得长期生命力的前提。

从技术到商业的转化,彩云科技同样敢为人先。目前,彩云科技的 AI 应用已经获得了在 DCFormer 架构的一系列助益,有望实现商业腾飞。

比如既有能力的大幅更新。作为国内首个分钟级天气预报,街道级定位精度的天气预报服务,彩云天气基于 DCFormer 带来的模型效率提升,有望在未来将分钟级的高准确率预测时长从 2 小时扩展到 3 — 12 小时,能力进一步提升。

再比如全新能力的拓展。彩云科技旗下 AI RPG 平台彩云小梦,采用了全新的 DCFormer 架构,V4、V5 版本有望扩展到 2000-5000 字的创作,再通过故事工程优化,目标是一年内可以轻松创作出达到专业作家水平的 5 万字长度中篇故事,同时小梦角色扮演的故事体验,也能达到专业编剧的水平。凭借优异的性能,彩云小梦在小说续写、AI 陪伴等领網域,已经实现了用户使用时长断崖式的领先。

不难看到,DCFormer 架构为彩云科技的 AI 产品化、AI 商业化,奠定了腾飞的基础条件。也证明,唯有基于底层技术创新,AI 产品才能避免同质化竞争,打造出极具说服力和差异化的产品体验,从而建立碾压式的市场优势。

大模型爆火以来,国外打底层创新、国内做应用改良,似乎成了惯例。

中国 AI 企业不敢向底层创新下大力气,更希望低头捡起六便士,并不是不愿意抬头追逐月亮,而是技术代际的现实差距、算力资源受限的实际情况、商业回报的约束和压力,都是切实存在的。

而提到那些敢于逐月的 AI 公司,我们第一时间想到的是国内科技巨头,很少人知道彩云科技是国内最早做 LLM(大语言模型)的公司之一,而且敢于追逐 AGI 的梦想,向底层技术发起冲锋。

既能仰头逐月,也能低头搞好商业化,彩云科技可以作为一个国内 AI 公司找到技术和商业平衡点的成功样本。

彩云科技区别于主流 AI 公司的独特之处,在于其是个少见的 " 三有少年 ":

有信仰。作为一个体量较小的科技公司,彩云科技利用效率更高的模型架构,在与世界顶级人工智能企业的对抗中取得优势。如果没有 AGI 的技术信仰,一个小公司是想不到、不敢做优化 Transformer 架构这件事的。

有技术产品化的能力。Transformer 架构由谷歌率先提出,却被 OpenAI 摘了桃子,ChatGPT 成为这一轮 LLM 里程碑,这得益于 chatbot 聊天机器人功能的产品化程度更高,更贴近大众。彩云科技的成功也在于此,并没有单纯地只发 paper,而是尽快将 DCFormer 与产品集成,让技术尽快转化为产品落地。这种技术产品化的能力,可以让底层创新快速投向市场,形成良性循环。

有长坡厚雪的环境。创新,需要长期耐心地投入;产品化,需要深入行业和用户之中的经验和感觉。这就是巴菲特所说的 " 长坡厚雪 ",要有足够强的盈利和长期增长的赛道。这是很多 AI 初创企业所缺乏,但彩云科技恰好具备的。十年间,彩云科技打造的数款足够成熟和商业化的 AI 产品,为技术创新营造了长坡厚雪的良好环境。

" 三有少年 " 彩云科技,找到了理想与现实之间的平衡点,正沿着 DCFormer 架构的天梯,朝着 AGI 的月亮飞翔。这条彩云逐月之路,也让我们看到了 AI 产品化、商业化的清晰增长路径。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們