今天小编分享的科学经验:非Transformer架构新模型爆火,从第一性原理出发,MIT CSAIL衍生团队打造,欢迎阅读。
挑战 Transformer,MIT 初创团队推出LFM(Liquid Foundation Model)新架构模型爆火。
LFM 1.3B、LFM 3B两个不同大小的模型,性能超越同等规模 Llama3.2 等 Transformer 模型。
LFM 架构还有很好的可扩展性,团队还推出了基于 MoE 的 LFM 40B(激活 12B 参数),能与更大规模的密集模型或 MoE 模型相媲美。
LFM 用的是一种液态神经网络(LNN),从第一性原理出发而构建,其计算单元植根于动态系统理论、信号处理和数值线性代数。
这种架构还有一个特点:在内存效率方面特别强。
基于 Transformer 的 LLM 中的 KV 缓存在长上下文中会急剧增长,而 LFM 即使在处理 100 万个 token 时也能保持内存最小。
小巧便携,使得它能够直接部署在手机上进行文档和书籍等分析。
LFM 模型背后是一支 MIT 计算科学与人工智能实验室衍生出来的小团队,名叫Liquid AI。
其后训练负责人 Maxime Labonne 在 X 上为自家模型疯狂打 Call:
这三个具有 SOTA 性能的模型,是我职业生涯中最值得骄傲的版本。
AI 畅销书《人工直觉》作者也表示看好。
一直等的就是这样的模型,基于物理学或神经元的 " 第一性原理 "
目前 LFM 系列模型还在预览测试中,大伙儿可通过 Liquid 官方平台、Lambda Chat、Perplexity AI 来访问。
基于液态神经网络打造
具体来看看这三个模型的性能和特点。
LFM 1.3B 在 MMLU、MMLU-Pro、ARC-C、GSM8K 基准上相较于下表其它模型,取得 SOTA 性能。
LFM 3B,还能和 Mistral 7B、Llama3.1 8B 两倍大模型打得有来有回。
LFM 40B 性能也可与比其自身更大的模型相媲美,MoE 架构可实现更高吞吐可部署在更具成本效益的硬體上。
与 Transformer 架构相比,LFM 的一个突出优势就是内存占用更少。
对于长输入效果更明显,基于 Transformer 的 LLM 中的 KV 缓存随着序列长度线性增长。通过有效压缩输入,LFM 可以在同一硬體上处理更长的序列。
以下是 LFM 3B 与其它 3B 级模型的对比,LFM 3B 能始终保持较小的内存占用。
处理 100 万个 token,LFM 3B 只需 16 GB 内存,而 Llama-3.2-3B 模型则需 48 GB+。
LFM 上下文有效长度为32k。
当相应得分高于 85.6 时,长度被认为是 " 有效的 "(Hsieh 等人,2024 RULER)。
LFM 3B 在 32k 的上下文长度上,仍能保持89.5的高分。
实验结果中 Llama 3.2 生成 128k 上下文視窗,但实际只在 4k 上有效,也引起一波关注。
除此之外,LFM 由结构化运算符组成,为基础模型打开了一个新的设计空间。
不仅限于语言,还可以将其应用于音频、时间序列、影像等等其它模态。
还具有高适应性,可针对特定平台(如苹果、高通、Cerebras、AMD)优化架构,或匹配给定的参数要求和推理缓存大小。
Liquid AI 团队直接把目前 LFM 模型的优缺点都一一列了出来。
现在 LFM 语言模型擅长通用和专业知识、数学和逻辑推理、长上下文任务。
主要语言是英语,还支持西班牙语、法语、德语、中文、阿拉伯语、日语和韩语。
但 LFM 语言模型不擅长零样本代码任务、精确的数值计算、时效性信息,人类偏好优化相关技术也尚未广泛应用。
有意思的是,Liquid AI 团队还明确表示 LFM 现在不会数 "Strawberry" 中 "r" 的数量。
经网友测试,它确实不会。
关于 LFM 架构更多技术细节,官方表示将持续发布技术 Blog。
背后团队来自 MIT CSAIL
下面简单介绍一下 LFM 模型背后团队—— Liquid AI。
Liquid AI 是一家从 MIT 计算机科学与人工智能实验室衍生出来的公司。
目标是在每一个规模上构建能力强大且高效的通用人工智能系统。
联合创始人共有四位。
CEO Ramin Hasani,MIT CSAIL 人工智能科学家、前 Vanguard Group 首席人工智能和机器学习科学家。
博士论文研究主题就是关于液态神经网络(Liquid Neural Networks),由维也纳工业大学 Radu Grosu 教授和麻省理工学院 Daniela Rus 教授共同指导。
CTO Mathias Lechner,MIT CSAIL 研究员。
维也纳工业大学计算机科学的学士、硕士学位,奥地利科学与技术研究所(ISTA)博士学位。
专注于开发稳健可信的机器学习模型。
首席科学官 Alexander Amini,在 MIT 完成了计算机科学学士、硕士和博士学位,同时辅修数学。
研究的领網域包括自主系统的端到端控制学习、神经网络的置信度公式化、人类移动性的数学建模以及复杂惯性精细化系统的构建。
另外一位联合创始人是MIT CSAIL 主任 Daniela Rus,她还是 MIT 电气工程与计算机科学系的 Andrew&Erna Viterbi 教授。
Liquid AI 成立初就致力于从第一性原理出发构建新一代基础模型,是一个基于深度信号处理和状态空间层扩展语言模型的团队。
之前研究有一箩筐:
感兴趣的的家人们可以自行查阅:
https://www.liquid.ai/blog/liquid-neural-networks-research
对新模型感兴趣的家人们可以测试起来了:
https://playground.liquid.ai/chat?model=cm1ooqdqo000208jx67z86ftk
参考链接:
[ 1 ] https://x.com/LiquidAI_/status/1840768722665189596
[ 2 ] https://venturebeat.com/ai/mit-spinoff-liquid-debuts-non-transformer-ai-models-and-theyre-already-state-of-the-art/