今天小編分享的互聯網經驗:挑戰Transformer!液态AI,了解一下,歡迎閱讀。
剛剛,一家名為 Liquid AI(液态 AI)的生成式人工智能初創公司宣布,完成一輪價值 2.5 億美元的早期融資,由芯片巨頭 AMD 領投。
這項投資将支持 Liquid AI 進一步開發其 Liquid Foundation 模型(LFM),這是一種面向企業的輕量級、通用 AI 模型,旨在挑戰傳統的基于雲端的 AI 模型,如 OpenAI、亞馬遜 AWS 和谷歌雲。
液态神經網絡:受大腦啟發的創新
Liquid AI 的 LFM 與傳統基于變換器的模型架構不同,它們基于" 液态神經網絡 ",這是一種受大腦啟發的系統,即使在訓練後也能保持适應性和魯棒性(穩定力)。
這些模型非常适合處理大量順序多模态數據,包括視頻、音頻、文本、時間序列和信号。在 MMLU-Pro 基準測試中,Liquid AI 的 LFM 模型跑赢了 Meta 和微軟的流行模型,同時需要的内存更少。
LFM 具備多語言能力,包括西班牙語、法語、德語、中文、阿拉伯語、日語和韓語。此外,這些模型正在為英偉達、AMD、高通和蘋果的硬體進行優化。
LFM 有三個模型可供選擇:LFM-1B 适合資源受限的環境,LFM-3B 優化了邊緣部署,而 LFM-40B 專家混合模型(MoE)則設計用于復雜任務。 這些模型在知識容量、多步推理、長上下文回憶、推理效率和訓練效率方面表現出色。
STAR,專注性能與效率的平衡
Liquid AI 還推出了一種能夠自動生成和優化 AI 模型架構的新框架(STAR,定制架構合成 ) 。STAR 框架利用進化算法和數字編碼系統來解決深度學習模型中平衡質量和效率的復雜挑戰。
根據 Liquid AI 的研究團隊(包括 Armin W. Thomas、Rom Parnichkun、Alexander Amini、Stefano Massaroli 和 Michael Poli)的說法,STAR 的方法代表着傳統建築設計方法的轉變。
STAR 不依賴于手動調整或預定義模板,而是使用分層編碼技術(稱為 "STAR 基因組 ")來探索架構的廣闊設計空間。這些基因組支持重組和突變等迭代優化過程,使得 STAR 能夠合成和改進針對特定指标和硬體要求的架構。
Liquid AI 對 STAR 的最初關注點是自回歸語言建模,而傳統的 Transformer 架構長期以來一直占據主導地位。
在研究期間進行的測試中,Liquid AI 研究團隊展示了 STAR 生成架構的能力,其性能始終優于高度優化的 Transformer++ 架構和混合模型。
例如,在優化質量和緩存大小時,STAR 演化架構與混合模型相比實現了高達 37% 的緩存大小減少,與 Transformers 相比則減少了 90%。盡管效率有所提高,但 STAR 生成的模型仍保持甚至超過了同類模型的預測性能。
類似地,在優化模型質量和大小時,STAR 将參數數量減少了多達 13%,同時仍提高了标準基準測試的性能。
該研究還強調了 STAR 擴展其設計的能力。STAR 演化模型的參數從 1.25 億擴展到 10 億,其結果與現有的 Transformer++ 和混合模型相當甚至更優,同時顯著降低了推理緩存要求。
Liquid AI 表示,STAR 植根于一種融合了動力系統、信号處理和數值線性代數原理的設計理論。
這種基礎方法使團隊能夠為計算單元開發一個多功能的搜索空間,涵蓋注意力機制、遞歸和卷積等組件。
STAR 的一大特色是其模塊化,這使得該框架能夠跨多個層次對架構進行編碼和優化。此功能可深入了解重復出現的設計主題,并使研究人員能夠确定架構組件的有效組合。