今天小编分享的科技经验:不走Transformer路线,彩云科技推出通用大模型云锦天章,欢迎阅读。
文 | 王方玉
编辑 | 苏建勋
目前绝大多数生成式 AI 产品的底层技术都源于 2017 年谷歌提出的 Transformer 模型架构,而国内一家 AI 创业公司——彩云科技却独辟蹊径,开发出了全新的模型架构 DCFormer,并基于此推出新产品。
11 月 13 日,彩云科技在北京总部发布了首款基于 DCFormer 架构开发的通用大模型云锦天章。
据 CEO 袁行远介绍,云锦天章可以实现在虚构世界观的基础上,赋予小说人物编程、数学等基础能力,可以高速针对大量文字进行扩写、缩写,针对文章风格进行大容量更换,同时兼具其他模型的问答、数学、编程等基础能力。
除了擅长的应用场景不同,云锦天章与常规大模型最大的差异还在于底层模型。据介绍,通过改进注意力矩阵,在相同训练数据下,DCFormer 架构最高可以将算力智能转化率提升至 Transformer 的 1.7 到 2 倍。
此外,DCFormer 是在 Transformer 的基础上进行改进,能够和现有的模型叠加,而不是互斥,因此所有基于 Transformer 架构的大模型都能在 DCFormer 的基础上降低成本。
彩云科技关于 DCFormer 架构成果的相关论文已于今年 5 月在第 41 届国际机器学习大会 ICML 2024 正式发表,该会议是国际机器学习领網域的三大顶会之一。此外,DC Former 的模型代码、权重和训练数据集,也已经在 Github 全部开源。
为何选择另辟蹊径采取 DCFormer 架构?袁行远告诉 36 氪,AI 在运行过程中对能源的巨大需求已成为行业共识,改善模型底层架构以提高效率是应对这一挑战的最佳策略。模型效率的提升,也可以有效地降低人工智能更新迭代的成本,加速 AI 时代的到来。
虽然 DC Former 架构可以压缩大模型训练推理的成本,但彩云科技在商业化探索方面相对谨慎,关注投入产出比。
目前彩云科技旗下有彩云天气、彩云小梦、彩云小译三款面向 C 端用户的 AI 产品,在全球市场获得了超过 1000 万美元的 ARR(年度经常性收入),是国内为数不多能够实现盈利的人工智能公司。其最近一轮融资是由快手前 CEO 宿华个人投资的 B2 轮,投前估值达到 1.2 亿美元。
袁行远告诉 36 氪,彩云科技对 DCFormer 架构的研究及应用开发,主要服务于自身业务。目前,彩云小梦基于 V3.5 模型,在保持逻辑通顺与描写细致的前提下单次可以创作几百字到一千字的内容,未来有望突破到 2-5 千字的创作,实现更强的智能水平和更高的用户活跃度目标。