今天小编分享的互联网经验:国内首个与ChatGPT不同机制的通用大模型发布,算力消耗缩减50%,欢迎阅读。
岩芯数智 CEO 刘凡平(来源:钛媒体 App 编辑)
钛媒体 App 获悉,1 月 24 日下午,国内 AIGC 企业上海岩芯数智人工智能科技有限公司(岩芯数智,RockAI)在上海发布了国内首个自研的非 Transformer Attention 机制的低算力通用自然语言大模型—— Yan 模型,记忆能力提升 3 倍、速度提升 7 倍,推理吞吐量提升 5 倍。
这是国内首个发布的与 ChatGPT 不同机制的通用大模型,参数规模达百亿。该公司称,这是用百亿级参数达成千亿参数大模型的性能效果。
岩芯数智 CEO 刘凡平表示," 在全球范围内,一直以来都有不少优秀的研究者试图从根本上解决对 Transformer 架构的过度依赖,寻求更优的办法替代 Transformer。历经超过几百次的设计、修改、优化、对比、重来后,岩芯数智自主研发出了不再依赖 Transformer 的全新架构——‘ Yan 架构’,同时,基于 Yan 架构的低算力通用大模型应运而生。我们期望 Yan 架构可作为 AI 领網域的基础设施,并以此建立 AI 领網域的开发者生态,最终让任何人在任何设备上都能使用通用大模型,获取更加经济、便捷、安全的 AI 服务。"
据悉,成立于 2023 年 6 月的岩芯数智,是 A 股上市公司岩山科技(002195.SZ)旗下宣布拥抱 AIGC 新浪潮、向数智化转型并更名后成立的新公司,专注于打造为百业赋能的一站式 AIGC 数智化服务平台。而岩芯数智的团队则于 2022 年在内部组建。
Yan 模型是岩芯数智最新自研的百亿级参数模型,主要针对 To B 行业领網域,目前公司已提供多种场景的解决方案。例如 RockAI 模型大腦可以让企业拥有私網域的知识大模型,实现跨文档知识整合、实时信息记录,可用于银行金融、政务办公等。
Yan 模型的最大特点,是采用非 Transformer Attention(注意力)机制。据悉,包括火热的 ChatGPT、BERT 等大模型,普遍采用 Transformer 基础架构,而 Attention 机制区别于 CNN 技术,是通过参数和大数据利用算力训练形成的技术体系,则根据应用场景的不同而输出不同信息,通俗来说是把注意力集中放在重要的点上而忽略其他不重要的因素。Attention 主要分为空间注意力和时间注意力,前者用于影像处理,后者用于自然语言处理。
刘凡平此前对钛媒体 App 表示,他们在对 Transformer 模型不断的调研和改进过程中,意识到了重新设计大模型的必要性:一方面,在 Attention 机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。因此,岩芯数智希望研发非 Transformer 架构模型。
(详见钛媒体 App 前文:《独家对话岩芯数智 CEO 刘凡平:" 百模大战 " 下,AIGC 新玩家如何杀出重围?》)
据介绍,相比 Transformer 架构的模型,Yan 模型算力消耗缩减 50%、推理效率提升 7 倍、准确率提高 3 倍、推理吞吐量提升 5 倍。针对长序列环境,在单张 4090 24G 显卡上,当模型输出 token 的长度超出 2600 时,Yan 模型显存使用始终稳定在 14G 左右,理论上能够实现无限长度的推理,而 Transformer 模型会出现显存不足。
此外,Yan 模型也同时具备私密化、经济化、精准化和实时性、专业性、通用性等六个商业化落地能力。而且,该团队首次研发了一种合理的关联特征函数和记忆算子,可降低模型内部结构的复杂度,发掘决策过程的透明度和可解释性,从而助力全新架构下的 Yan 模型在医疗、金融、法律等领網域的广泛运用。
刘凡平透露,接下来岩芯数智将打造全模态实时人机互動系统,全面打通感知、认知、决策与行动,构建通用人工智能(AGI)的智能循环体(类似于 Agents),为通用机器人等具身智能方向的研究提供大模型基础底座的 " 更多选择 "。他强调,通过提供基于 Yan 架构的专业生产力工具,实现端侧训练、训推一体,推动企业数智化发展。
岩芯数智董事长陈代千表示,随着 Yan 模型的进一步落地和应用,未来公司将为机器人、嵌入式设备、物联网设备等领網域提供所需的智能化能力,为企业和用户创造更多的价值。
(本文首发钛媒体 App,作者|林志佳)