今天小编分享的互联网经验:挑战Transformer!液态AI,了解一下,欢迎阅读。
刚刚,一家名为 Liquid AI(液态 AI)的生成式人工智能初创公司宣布,完成一轮价值 2.5 亿美元的早期融资,由芯片巨头 AMD 领投。
这项投资将支持 Liquid AI 进一步开发其 Liquid Foundation 模型(LFM),这是一种面向企业的轻量级、通用 AI 模型,旨在挑战传统的基于云端的 AI 模型,如 OpenAI、亚马逊 AWS 和谷歌云。
液态神经网络:受大腦启发的创新
Liquid AI 的 LFM 与传统基于变换器的模型架构不同,它们基于" 液态神经网络 ",这是一种受大腦启发的系统,即使在训练后也能保持适应性和鲁棒性(稳定力)。
这些模型非常适合处理大量顺序多模态数据,包括视频、音频、文本、时间序列和信号。在 MMLU-Pro 基准测试中,Liquid AI 的 LFM 模型跑赢了 Meta 和微软的流行模型,同时需要的内存更少。
LFM 具备多语言能力,包括西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。此外,这些模型正在为英伟达、AMD、高通和苹果的硬體进行优化。
LFM 有三个模型可供选择:LFM-1B 适合资源受限的环境,LFM-3B 优化了边缘部署,而 LFM-40B 专家混合模型(MoE)则设计用于复杂任务。 这些模型在知识容量、多步推理、长上下文回忆、推理效率和训练效率方面表现出色。
STAR,专注性能与效率的平衡
Liquid AI 还推出了一种能够自动生成和优化 AI 模型架构的新框架(STAR,定制架构合成 ) 。STAR 框架利用进化算法和数字编码系统来解决深度学习模型中平衡质量和效率的复杂挑战。
根据 Liquid AI 的研究团队(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)的说法,STAR 的方法代表着传统建筑设计方法的转变。
STAR 不依赖于手动调整或预定义模板,而是使用分层编码技术(称为 "STAR 基因组 ")来探索架构的广阔设计空间。这些基因组支持重组和突变等迭代优化过程,使得 STAR 能够合成和改进针对特定指标和硬體要求的架构。
Liquid AI 对 STAR 的最初关注点是自回归语言建模,而传统的 Transformer 架构长期以来一直占据主导地位。
在研究期间进行的测试中,Liquid AI 研究团队展示了 STAR 生成架构的能力,其性能始终优于高度优化的 Transformer++ 架构和混合模型。
例如,在优化质量和缓存大小时,STAR 演化架构与混合模型相比实现了高达 37% 的缓存大小减少,与 Transformers 相比则减少了 90%。尽管效率有所提高,但 STAR 生成的模型仍保持甚至超过了同类模型的预测性能。
类似地,在优化模型质量和大小时,STAR 将参数数量减少了多达 13%,同时仍提高了标准基准测试的性能。
该研究还强调了 STAR 扩展其设计的能力。STAR 演化模型的参数从 1.25 亿扩展到 10 亿,其结果与现有的 Transformer++ 和混合模型相当甚至更优,同时显著降低了推理缓存要求。
Liquid AI 表示,STAR 植根于一种融合了动力系统、信号处理和数值线性代数原理的设计理论。
这种基础方法使团队能够为计算单元开发一个多功能的搜索空间,涵盖注意力机制、递归和卷积等组件。
STAR 的一大特色是其模块化,这使得该框架能够跨多个层次对架构进行编码和优化。此功能可深入了解重复出现的设计主题,并使研究人员能够确定架构组件的有效组合。