今天小編分享的互聯網經驗:号稱GPU推理速度提高400%,騰訊紅杉投資的無問芯穹公布首個大模型算力平台,歡迎閲讀。
(圖片來源:钛媒體 App 編輯拍攝)
钛媒體 App 獲悉,3 月 31 日上午,騰訊、百度投資的國内大模型領網域 AI Infra 公司無問芯穹在上海發布無穹 Infini-AI 大模型開發與服務平台。
無問芯穹表示,Infini-AI 大模型開發與服務平台包括一站式 AI 平台,以及兼容 infini-megrez、Llama、ChatGLM 等多個模型的大模型開發平台,利用 GPU 推理和加速技術,提供大模型開發、訓練、運行、應用的完整工具鏈。
清華大學電子工程系教授兼系主任,國家自然科學基金傑青、無問芯穹發起人汪玉教授早前表示," 現在大家都在做各種各樣的非常厲害的芯片,但是,但怎樣去把模型更好的部署在這些芯片上,讓做應用開發等領網域人員不會花費額外的代價,其實會極大推動大模型研發。無問芯穹就是想要推動大模型技術設施發展進入各行各業。"
無問芯穹創始人、CEO 夏立雪透露,大模型服務平台于 3 月 31 日起開啓免費公測,給所有實名注冊的個人和企業用户提供百億 tokens 免費配額。一站式 AI 平台于 4 月 1 日 -4 月 30 日限時免費試用。
無問芯穹創始人、CEO 夏立雪
據悉,無問芯穹(Infinigence AI)成立于 2023 年 5 月,是一家專注于為 AI 2.0 時代提供完整解決方案的科技公司。
投融資層面,截至目前,無問芯穹并未公開融資,但工商信息顯示,騰訊、百度、紅杉中國、啓明創投、同歌創投、智譜 AI、真格基金、光源資本、綠洲資本、經緯創投、華控電科、北極光創投、金沙江創投、徐匯資本、南山資本等機構均有投資入股無問芯穹。
無問芯穹創始團隊來自清華大學電子工程系,致力于成為大模型落地過程中的 "M × N" 中間層,以打造大模型軟硬體一體化方案,鏈接上下遊,建立 AGI(通用人工智能)時代大模型基礎設施。
清華大學電子工程系教授兼系主任、無問芯穹發起人汪玉教授
無問芯穹發起人是汪玉教授。1982 年出生的汪玉,本科、碩士、博士均在清華大學,2007 年汪玉選擇留校任教,是目前清華大學最年輕的系主任。同時,清華大學電子工程系也是國内半導體產業的 " 黃埔軍校 ",包括燧原科技創始人兼 CEO 趙立東,前清華大學校長王希勤等人都畢業于該專業。
2016 年 1 月,以汪玉教授為負責人的深度學習處理器項目,通過清華大學電子信息學院論證并獲得支持。随後,項目團隊以知識產權轉化入股、創立 AI 芯片公司深鑑科技,進行產業化運營。其學生姚頌、單羿是深鑑科技創始成員,投資方包括高榕資本、金沙江創投、三星風投等機構。2018 年,深鑑科技被全球最大的 FPGA 廠商賽靈思收購,随後賽靈思也被美國芯片巨頭 AMD 公司所收購。如今的無問芯穹,或屬于汪玉的 " 二次創業 "。
無問芯穹聯合創始人、CEO 夏立雪博士則是汪玉的學生,于 2018 年在清華大學電子工程系獲得工學博士學位,于 2013 年在清華大學電子工程系獲得工學學士學位。此外,他還于 2017 年 1 月至 6 月赴杜克大學進行為期半年的訪問學者。夏立雪的研究内容為深度學習算法的硬體設計優化,關注層次主要包括算法層的模型壓縮、軟體層的算法編譯優化、以及面向新興存儲計算元件 RRAM 的深度學習計算平台體系結構和容錯方法研究等。
無問芯穹聯合創始人、CTO 顏深根是中科院博士,北卡州立大學訪問學者,曾任商湯科技數據與計算平台部執行研究總監、北京大學 - 商湯科技聯合實驗室副主任,曾帶領上百人優秀團隊幫助商湯開發包括 SenseParrots 在内的多個原創 AI 系統,建立了接近 2 萬片 GPU 的超大規模高性能 AI 計算平台。
無問芯穹聯合創始人兼首席科學家戴國浩,目前是上海交通大學長聘教軌副教授,CCC(清源研究院定制計算中心)Co-PI,DAI Group(人工智能設計自動化創新實驗室)負責人。戴國浩同為清華校友,分别于 2014 年和 2019 年取得清華電子工程系工學學士和博士學位。汪玉為其博士畢業論文指導老師。其主要研究方向是大規模稀疏圖計算、異構硬體計算、新興硬體架構等,畢業後,他曾為汪玉研究團隊的助理研究員,後于 2022 年加入上海交大任副教授,方向為稀疏計算、AI 電路與系統等。
2023 年,以 ChatGPT 為代表的 AI 大模型風靡全球,AI 2.0 時代正在到來,而算力訓練成本高、難以統一高效部署算力設施等,依然是大模型發展制約因素。
汪玉曾表示,大模型的湧現給 AI 、自動駕駛、科學計算以及機器人等領網域都帶來了顯著的促進作用,但當下,大模型落地面臨諸多挑戰,算力供需平衡、大模型應用降本需要軟硬一體協同優化的 AI 生态。
" 從個人的角度來看,當前大模型主要面臨三個方面的挑戰:第一,大模型面臨的算力限制;第二,當前推理和包括訓練在内的成本相當高,這是創業者和大公司普遍面臨的挑戰;第三,面對獨特的算法和多元硬體的生态,如何更有效地推動這個生态的發展,也是當前面臨的一個重要挑戰。" 汪玉表示。
汪玉曾透露,訓練 GPT-4 時需要使用到 2.4 萬張 A100 GPU。而以不同類型的模型和用户數來計算(推理階段),在自建算力集群的情況下,每天的費用可能達到 690 萬。如果使用現有的 API 運營,費用可能更高。而假設 GPT-4 Turbo 每天要為 10 億活躍用户提供服務,每年的算力成本可能超過 2000 億元。
夏立雪博士曾表示,算力不足仍然是制約通用人工智能發展的重要因素。GPU Utils 的一份數據顯示,全球目前 H100 等效算力的供給缺口達到 43 萬張。在解決算力不足的問題上,除了搶購和囤積英偉達,更多的方案正在浮出水面。
去年 7 月的一場演講中,汪玉表示,無問芯穹是面向大模型的 MxN 軟硬體聯合優化中間層的平台,利用其平台設施,推理成本、微調成本、人力成本均有望降低 10 倍以上,同時文本長度也會增加 10 倍以上。
簡單來説,無問芯穹做的任務屬于 AI infra 技術,M 層是大模型,N 層是 A100/H800 等國内外伺服器硬體,通過算子優化、自動編譯、不同芯片耦合等技術一鍵部署模型。
" 在芯片制造方面,我們面臨着算力密度的限制。目前大家正在讨論的是 1Tops/Watt 的設計,即每瓦特能夠提供 1T 次運算(人腦的功耗大約為 20 瓦)。未來在某些任務上,我們需要硬體去達到每瓦特 1000Tops/Watt 的指标。那麼如何通過芯片實現 1Tops/Watt,甚至幾百 T 或幾千 Tops/Watt 呢?過去幾年中,計算芯片通過尺寸微縮的紅利實現了各種各樣的專用處理器。現在,我們開始關注近存儲計算和存内計算,因為數據搬運相比數據計算更耗電,搬運數據(帶寬)變得更加復雜。進一步地,我們也在研究是否可以不使用硅基芯片、微電子,而是采用光電子來制造芯片,這是業内關注的一系列研究方向。另一方面,大模型的發展需要極高的互聯帶寬,根據實驗室理論計算,GPT-3 所需的互聯帶寬為 1380TB/s,而一張英偉達的卡自帶的 600GB/s 互聯帶寬與這一需求之間存在顯著差距。這也是為什麼需要将許多這樣的卡連接在一起,才能完成對這一模型的訓練。目前,計算性能的提升速度超過了帶寬的增速,尤其在多元互聯的應用場景中,如何有效地将機器連接起來是一項相當復雜的任務。我們也在思考,創建一種相對統一的中間層,以支持長文本、實現更高的性價比,同時實現一鍵部署。并且在這個中間層中,納入一些工具,以協助算法和應用的開發,比如整合算法壓縮、算子優化以及自動編譯等功能。通過這樣的中間層,有望更好地匹配 M 個大型模型和 N 個硬體,從而實現更加靈活的部署。" 汪玉曾表示。
所謂 AI Infra,是指構建 AI 所需的基礎設施,涵蓋連接算力和應用的 AI 中間層基礎設施,包括數據準備、模型訓練、模型部署和應用整合等環節。它不僅與算力相關,還包括大數據層面的優化。AI Infra 包括 AI 基礎框架技術,涉及大模型訓練、部署領網域的各種底層設施,以及基礎軟體棧等核心組成部分,主要目标是優化算力算法、促進應用落地。而 AI Infra 在 AI 行業中扮演着連接硬體、軟體和應用的關鍵角色,促進了 AI 技術的發展和應用。
2023 年 11 月,無問芯穹聯合清華大學、上海交通大學團隊在 Arxiv 上發表了一篇論文,提出了一種新方法 FlashDecoding++,通過異步方法實現注意力計算的真正并行,可以将 GPU 推理速度提高 2 倍 -4 倍(200%-400%),在英偉達 A100 顯卡上的推理平均加速 37%,以及同時支持英偉達和 AMD 的 GPU 產品。
另外,無問芯穹還自主研發 70 億參數大語言模型 " 無問天權 " —— infini-megrez-7b,支持英偉達和 AMD 的 GPU,以及無問芯穹自研高效推理引擎等。
據稱,目前無穹 Infini-AI 平台已支持了 Baichuan2、ChatGLM3、Llama2、Qwen 系列等共 20 多個模型,以及 AMD、壁仞、寒武紀、燧原、天數智芯、沐曦、摩爾線程、NVIDIA 等 10 餘種計算卡,支持多模型與多芯片之間的軟硬體聯合優化和統一部署。
針對此次公布的一站式 AI 平台和大模型服務平台,钛媒體 App 也進行了測試和體驗。
我們觀察到,從推理側來説,大模型服務平台的 chat 速度還是比較快的,同時也支持多個大模型、多款伺服器同時進行推理應用。但截至目前,钛媒體 App 測試的基于無穹 Infini-AI 平台的 infini-megrez-7b 和 ChatGLM3 模型,均不能提供汪玉教授準确的個人信息反饋,説明其知識體系無法實時更新,數據和模型能力仍需要加強。
钛媒體 App 還獲悉,無問芯穹還宣布将與智譜 AI 合作構建大模型訓推萬卡集群,并且與摩爾線程就 MTT S4000 千卡集群達成協定。
戴國浩透露,其團隊于今年 1 月初研發出全球首個基于 FPGA(現場可編程邏輯門陣列)的大模型處理器,通過大模型高效壓縮的軟硬體協同優化技術,使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡,并且性價比與能效比均高于同等工藝 GPU,即展示 " 一張卡跑大模型 "。戴國浩稱其為無穹 LPU,預計将于 2025 年發布。(注:此前第四範式也公布了類似的 FPGA 的模型算力加速技術)
圓桌會議上,鴻博股份副總裁、英博數科科技有限公司 CEO 周韡韡博士表示," 若算力不自由,則數據無意義。關于 AGI,關于未來,我們有太多美好的憧憬,但眼下最實在的是先讓可滿足通用型 LLM 的同構大型智算集群跑起來,再讓國内團隊在復現和追趕世界水平的同時,兼顧繁榮國產自主可控 AGI 生态發展。"
(本文首發钛媒體 App,作者|林志佳)