今天小編分享的互聯網經驗:蘋果AI終于來了!從2.7到30億四款大模型代碼全開源,AI技術持續“狂飙”,歡迎閱讀。
(圖片來源:Apple 官網)
蘋果公司突然公布了一則大新聞。
北京時間 4 月 25 日凌晨,蘋果在 Hugging Face 平台上發布一個 " 具有開源訓練和推理框架的高效語言模型 ",名為 OpenELM。
據了解,OpenELM 有四種尺寸:2.7 億、4.5 億、11 億和 30 億個參數版本,定位于超小規模模型,而微軟 Phi-3 模型為 38 億。這種小模型運行成本更低,可在手機和筆記型電腦等設備上運行。
同時,在 WWDC24 開發者大會之前,蘋果徹底開源了 OpenELM 模型權重和推理代碼,數據集和訓練日志等。而且,蘋果還開源了神經網絡庫 CoreNet。
早在今年 2 月,蘋果公司 CEO 蒂姆 · 庫克(TimCook)就表示,蘋果生成式 AI 功能将于 " 今年晚些時候 " 推出,有消息稱即将在 6 月發布 iOS 18 可能是蘋果 iOS 史上 " 最大 " 的更新,而 9 月也将推出首款 AI iPhone 設備。
如今,蘋果似乎在新一輪 AI 浪潮快到尾聲的時刻追趕上了行業腳步。
代碼 : https://github.com/apple/corenet
hf: https://huggingface.co/apple/OpenELM
論文 : https://arxiv.org/abs/2404.14619
預訓練 tokens 數量減一半,11 億參數蘋果模型效果卻比競品更精準
随着 ChatGPT 風靡全球,近幾個月來,三星、谷歌、小米等手機廠商全面推進大語言模型在手機、平板等端側上的使用,包括照片處理、文字處理增強等,并形成一大賣點。而蘋果很少透露并極少有類似的自帶功能,主要是用第三方工具做到類似效果。
今年 2 月财報會議上,庫克首次公布生成式 AI 計劃,并将在今年晚些時候将 AI 技術集成到其軟體平台(iOS、iPadOS 和 macOS)中。
庫克表示," 我只想說,我認為蘋果在生成式 AI 和 AI 方面存在着巨大的機會,無需透露更多細節,也無需超出自己的預期。展望未來,我們将繼續投資于這些和其他将塑造未來的技術。其中包括 AI,我們繼續在 AI 領網域花費大量時間和精力,我們很高興能在今年晚些時候分享我們在該領網域正在進行的工作的細節。我們對此非常興奮。"
實際上,自年初至今,蘋果在生成式 AI 領網域動作不斷。今年 3 月,蘋果技術團隊發表論文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》,首次披露蘋果大模型 MM1,涵蓋 300 億參數、支持多模态、支持 MoE 架構,超半數作者屬于華人。
如今,針對手機、平板等端側領網域,蘋果真正的開源模型終于來了。
據論文顯示,蘋果開源了大語言模型 OpenELM,有指令微調和預訓練兩種模型版本,共有 2.7 億、4.5 億、11 億和 30 億 4 種參數,提供生成文本、代碼、翻譯、總結摘要等功能。
雖然最小的參數只有 2.7 億,但蘋果使用了包括 RefinedWeb、去重的 PILE、RedPajama 的子集和 Dolma v1.6 的子集在内的公共數據集,一共約 1.8 萬億 tokens 數據進行了預訓練,這也是其能以小參數表現出超強性能的主要原因之一。
例如,11 億參數的 OpenELM,比 12 億參數的 OLMo 模型的準确率高出 2.36%,而使用的預訓練數據卻只有 OLMo 的一半。
在訓練流程中,蘋果采用了 CoreNet 作為訓練框架,并使用了 Adam 優化算法進行了 35 萬次迭代訓練。而蘋果的 MobileOne、CVNets、MobileViT、FastVit 等知名研究都是基于 CoreNet 完成的。
蘋果在論文中還表示,與以往只提供模型權重和推理代碼并在私有數據集上進行預訓練的做法不同,蘋果發布的版本包含了在公開數據集上訓練和評估語言模型的完整框架,包括訓練日志、多個檢查點和預訓練配置。同時,蘋果還發布将模型轉換為 MLX 庫的代碼,以便在蘋果設備上進行推理和微調。
" 此次全面發布旨在增強和鞏固開放研究社區,為未來的開放研究工作鋪平道路。" 蘋果研究團隊表示。
此外,OpenELM 不使用任何全連接層中的可學習偏置參數,采用 RMSNorm 進行預歸一化,并使用旋轉位置嵌入編碼位置信息。OpenELM 還通過分組查詢注意力代替多頭注意力,用 SwiGLU FFN 替換了傳統的前饋網絡,并使用了 Flash 注意力來計算縮放點積注意力,能以更少的資源來進行訓練和推理。同,蘋果使用了動态分詞和數據過濾的方法,實現了實時過濾和分詞,從而簡化了實驗流程并提高了靈活性。還使用了與 Meta 的 Llama 相同的分詞器,以确保實驗的一致性。
這次,蘋果很有誠意将代碼開源,一開到底,把所有内容都貢獻出來了。僅 1 天多的時間,該模型 GitHub 平台上就獲得超過 1100 顆星。
而目前,大模型領網域主要分為開源和閉源兩大陣營,國内外知名閉源的代表企業有 OpenAI、Anthropic、谷歌、Midjourney、百度、出門問問等;開源陣營有 Meta、微軟、谷歌、商湯、百川智能、零一萬物等。
蘋果作為手機閉源領網域的領導者,此次卻罕見地加入開源大模型陣營。有分析認為,這可能在效仿谷歌的方式先通過開源拉攏用戶,再用閉源產品去實現商業化營利。
同時,這也表明蘋果進軍 AI 大模型領網域的堅定決心。
作為同為端側模型、開源模型企業,商湯科技聯合創始人、首席科學家王曉剛近期對钛媒體 App 表示,開源還是對于整個社區的發展還是非常重要的,是一個重要驅動力。最終大模型的發展包括各種應用,還是要整個社區共同去推動的。對于大模型的應用也分為不同的層次,這麼多行業對應用的需求也是不一樣的,豐富的開源社區非常重要。
AI 技術持續 " 狂飙 ",OpenAI 獲得了全球第一塊 DGX H200
不止是蘋果,今天凌晨,國内外 AI 技術依然 " 狂飙 ",相關消息滿天飛。
今晨,OpenAI 聯合創始人、COO Greg Brockman 發推文表示,英偉達向該公司移交全球範圍内第一塊 DGX H200,此舉旨在 " 推進人工智能、計算技術與人類的發展 "。
同時,他也發布了一張合影,還包括英偉達 CEO 黃仁勳、OpenAI CEO 奧爾特曼(Sam Altman),看起來三人非常開心。
早在 2016 年,OpenAI 剛成立不久,黃仁勳便親自将全球首台裝備了 8 塊英偉達 P100 芯片的超級計算機 DGX-1 送到了 OpenAI 的辦公室。
這台價值逾百萬美元的 DGX-1,是黃仁勳帶領英偉達 3000 名員工,歷時三年精心打造的成果。它極大地提升了 OpenAI 的計算能力,将原本需要一年的訓練時間縮短至僅一個月。
當時,OpenAI 還處于一個初創階段的非營利機構,這台超級計算機無疑是一份極具分量的禮物。馬斯克、Sam Altman 以及其他早期員工對此感到無比激動,紛紛在這台 DGX-1 上留下了自己的籤名。
2023 年 11 月 13 日,英偉達發布了新一代 AI GPU —— NVIDIA Grace Hopper H200 超級芯片,其内存容量和帶寬分别是 H100 的兩倍和 1.4 倍,最高支持 19.5TB,AI 性能達 128 petaFLOPS FP8,預計 2024 年第二季度開始供貨。
黃仁勳稱,這是擁有萬億規模的新型 AI 超級計算機,為巨型 AI 模型提供具有線性可擴展性的海量共享内存空間,能夠在生成式 AI 時代發揮巨大潛力。
如今,黃仁勳親手将全球第一塊 DGX H200 送給了 OpenAI。
同時,據 CTech 報道,英偉達以約 7 億美元收購了以色列 AI 基礎設施編排和管理服務 Run:ai,據悉,Run:ai 成立于 2018 年,迄今已籌集 1.18 億美元,同時英偉達還收購了 Deci 公司。
另外,今天凌晨,擁有全球首個 AI 代碼工程師的背後企業 Cognition 被曝完成了一輪 1.75 億美元的融資,由 Founders Fund 領投,僅僅一個月内,公司估值從 3.5 億美元增長到 20 億美元,引發關注。
Gartner 分析師 John-David Lovelock 表示,随着 Anthropic、OpenAI 等第一梯隊的玩家占據主導地位,AI 投資範圍正在 " 向外延展 "(spreading out)。
" 數十億美元的投資數量已經放緩,而且幾乎已經結束;熱錢湧向了新方向—— AI 應用。" 上述分析師表示," 大模型需要大量投資,但市場現在更多地受到科技公司的影響,這些公司将利用現有的 AI 產品、服務和產品來構建新產品。"
Greylock 合夥人 Seth Rosenberg 認為,人們對于資助 AI 領網域的 " 大批新玩家 " 的興趣本來就較很小。在這個周期的早期階段,投資基礎模型資本非常密集,相比之下,AI 應用和智能體所需的資本較低,這可能是絕對美元融資額下降的原因。
Thomvest Ventures 董事總經理 Umesh Padval 将 AI 整體投資的縮減,歸因于增長低于預期。他表示,最初的熱情已經讓位于現實—— AI 面臨一部分技術挑戰,一部分上市挑戰,可能需要數年時間才能解決并完全克服。
"AI 投資放緩反映出人們認識到,我們仍在探索 AI 技術發展及其在各行業應用的早期階段。雖然長期市場潛力仍然巨大,但最初的熱情已被在實際應用中推廣 AI 技術的復雜性和挑戰所削弱……這表明投資環境更加成熟和敏銳。"Umesh Padval 表示。
如今,AI 持續 " 狂飙 ",但整個市場方向已快速轉變,端側模型、AI 應用、行業大模型等都将成為今年整個 AI 領網域新趨勢。
(本文首發于钛媒體 App,作者|林志佳,編輯|胡潤峰)