今天小編分享的科學經驗:無問芯穹夏立雪:讓算力像水電煤一樣成為标準化、高附加值的“拎包入住”基礎設施,歡迎閱讀。
當數據與 AI 的協同鏈路被打通,如何讓算力真正成為驅動數智更新的核心引擎,釋放 AI 的終極潛能?
無問芯穹正是其中深耕 AI 芯片與算力優化的玩家,在第三屆 AIGC 產業峰會上,無問芯穹聯合創始人兼 CEO 夏立雪博士分享了最新行業心得:
要實現 " 算力即生產力 ",讓算力成為标準化、高轉化率的 " 拎包入住 " 基礎設施。讓算力像水電煤一樣流入到千行百業,流入到千家萬戶。
夏立雪博士畢業于清華大學電子工程系,長期致力于深度學習系統與 AI 芯片的前沿研究,入選 AI2000 人工智能全球最具影響力學者榜單(芯片方向 Top100)、斯坦福學科 Top2% 科學家榜單。他在大語言模型的壓縮加速、生成式 AI 模型芯片等領網域的相關工作,是世界首個面向深度學習語音合成領網域的定制化硬體設計,在國際上處于領先地位。
為了完整體現夏立雪的思考,在不改變原意的基礎上,量子位對其演講内容進行了編輯整理,希望能給你帶來更多啟發。
中國 AIGC 產業峰會是由量子位主辦的 AI 領網域前沿峰會,20 餘位產業代表與會讨論。線下參會觀眾超千人,線上直播觀眾 320 萬 +,累計曝光 2000 萬 +。
話題要點
推理範式變化帶來百倍算力需求增長:Deepseek 問世引發巨大關注,進一步幫助千行百業快速把更智能化模型能力應用在自己的場景裡,帶來超百倍的算力需求增長。
高質量、高性價比算力仍供不應求:在算力需求上,最終推理落地所帶來需求場景和需求方式的變化,供給側還有很大的優化空間。
算力生态方需提供更專業化的服務能力和精細化運營能力:相當于在裸金屬服務集群上疊加上運營交付能力、深度服務客戶業務的算力服務能力,這才是我們在這個時代應強化的能力。
最終我們希望實現 " 算力即生產力 ":讓算力成為标準化、高轉化率的 " 拎包入住 " 基礎設施。
以下為夏立雪演講全文:
Deepseek 推力模型興起,算力需求暴漲
今天非常榮幸能夠在這裡和非常多的行業夥伴們一起探讨中國 AIGC 未來的發展。我今天的演講題目是《算力即是生產力——數智更新的核心引擎》。
我們本身依托清華大學電子系的基因,一直在解決怎麼把算法和硬體更好更高效連接,今天非常高興能夠把最近的成果、行業觀察,還有我們的一些進展和大家做一個分享。
我相信在座的各位已經對人工智能的發展有非常深的理解,今天不從上世紀講起,我們講最近三年看到的一些現象。
大模型真正走入 " 全民 " 視野,算是以 2022 年的 ChatGPT 火爆為源頭。
如果把當時的算力需求作為一個基線,可以看到經過這幾年的發展,最近又有了兩個重要的變化。
第一是在 2023 年的時候,一方面,OpenAI 把 GPT-4 更優秀的能力引入到 ChatGPT,整個 AI 應用火爆全球;另一方面,像 Llama 這樣的一些開源生态方也進一步幫助大家把使用 AI 的成本降到更低,激發了 2023 年整個產業對于 " 怎麼把好的開源模型進一步部署在自己場景裡 " 的需求。
這在全產業層面帶來了 30 倍左右的算力增長的需求。
事情在 2024 到 2025 年間進一步發生變化。
o1 推理模型興起,除了預訓練模型之外,在推理過程中可以引入長思考、慢思考方式,進一步發揮有限數據的價值。
像今年年初,Deepseek 引發巨大關注,推理能力是它的長項,同樣它也是非常優秀的開源模型,進一步幫助了千行百業快速把更智能化模型能力應用在自己的場景裡,進一步帶來超過百倍的算力需求增長。
有很多產業方在這樣時代發展的過程中,也逐漸把 AI 真正集成在自己的實際生產中,也有一些非常令人激動的數據。
首先從全球來看,2024 年李飛飛教授的一份 report 中有一個統計,在 2023 — 2024 年這一年裡面,全球生成式 AI 部署熱度達到非常高的增長态勢,在一年時間裡,從 2023 年 55% 的狀态快速增長到 78%,将近五分之四的企業組織表示已部分将 AI 能力部署到自己的組織中。
中國作為全球最大的應用市場、應用場景方,一直走在 " 怎麼把好技術用在真實場景裡 " 的最前沿,以億級用戶規模的 APP 生态為觀測樣本,當前超過 70% 億級用戶 APP 都已經在做 "AI 轉型 ",大家也在不斷備案自己有特色有場景能力的算法模型。
以我們的客戶美圖為典型範例,随着 AI 轉型的深入,美圖接入 AI 功能之後,其付費用戶實現了快速增長,達到歷史新高 1200 萬量級,證明了 AI 在真實場景中能產生相當大的價值。
算力需求供給側比較粗放式
同時我們也看到了新的問題。
在算力需求上,最終推理落地所帶來需求場景和需求方式的變化,供給側還是沒有做到很好的支持。
推理和訓練的區别大家也都知道,推理是一種不可預測的流式任務,任務量跟實際的業務體量有非常大的相關性。
大家做一個業務的時候常常需要規劃考慮未來業務突然增長起來算力怎麼辦?目前在供給側,常用的解決方案還是臨時應對和準備,整個供給側算力供給還是比較粗放式的,主要是以數取勝。
如果未來業務有可能在一個月内快速增長 1 倍,但我又不想為這部分波動提前支付,也不想等業務起量後再來慌慌張張臨時準備,現在應該采用什麼樣的算力方案?目前大多數運營商很難有非常好的服務能力。
另一方面,訓練和推理在延時和功能上的要求也是完全不一樣的。
推理要求反應速度非常快,運營商不能說請你等一下,等我把你的請求和别人的請求拼一起,一天之後再給你出結果。所以在算力使用技術上,訓練追求高吞吐量和大批次處理的效率優化,而推理部署則要求低延遲、高并發和實時響應能力。若簡單沿用傳統算力優化手段,将難以滿足用戶對毫秒級響應、動态資源調度的需求,甚至可能因批量等待導致服務體驗下降。
兩者之間的差距最終導致實際使用中算力成本變高,成本壓力傳導到性能上形成瓶頸,最終性價比不劃算,會進一步阻礙有應用能力的夥伴真正把 AI 技能用起來。
過去整個算力供給市場如果用當年城市化的例子比喻,供給側更像是粗放式的 " 高端毛坯房 ",只能期待優質大客戶 " 自帶裝修能力 " 包下毛坯房。
但現在市場要求算力面向更多創新應用夥伴,算力供給需要做到幫助他們快速落地創業想法,就像商戶能輕松入駐 " 成熟商業廣場 " 一樣使用算力。
作為算力生态方,我們需要提供更專業化的服務能力和精細化運營能力,區别于以往算力供給只提供 " 算力毛坯房 ",現在我們要在裸金屬服務集群上疊加上運營交付能力、深度服務客戶業務的算力服務能力,這才是我們在這個時代應強化的能力。
無問芯穹希望團結更多合作夥伴,集中加速能力,喚醒沉睡的算力。如何把不同地方的零散算力、異構算力統一成像水電煤一樣 " 開箱即用、拎包入住 " 的标準化服務?
我們一直致力于把裸金屬更新成更好的一站式 AI 平台,面向 AI 開發者,甚至直接以大模型服務的方式支撐 AI 創業團隊,最終讓中國建設的強大算力更好地被下遊 AI 應用使用。
讓算力成為可 " 拎包入住 " 的基礎設施
這部分最近我們也做了一些新的努力,取得了新的進展。
首先在最底層激活各種多元異構算力,面對中國特色的市場環境,将國產芯片及國内不同小算力集群進行标準化統一。
一方面通過軟硬協同優化,讓算法與硬體更好結合;另一方面讓不同算力協同完成復雜大任務,從而 " 抹平 " 算力生态壁壘,以标準化方式使服務能力在應對彈性擴展和高性價比需求時更具支撐力。
最終我們希望大家享受到更加易用、更加廉價且性能更優的算力服務,這對性能提出了更高要求。
大模型推理部署分為雲和端兩個場景,端側在智能終端和硬體領網域存在廣泛需求,我們推出了名為 SpecEE 的加速技術。
簡單來說,SpecEE 能讓同類型模型在終端運行得更快更好,以 3B 模型為例,不同結構和計算量分配會導致硬體計算效率差異,推理中可能存在大量算力等待與浪費,而該技術通過算法與硬體結構的深度匹配解決這一問題。
實測顯示,在真實 AI PC 場景中,其加速比達 70% 至 2 倍以上,助力筆記本、手機等端側設備更好地部署 AI。
雲側則聚焦 " 省錢 ",讓相同算力實現更多產出。我們研發的推理引擎 / 框架針對大模型的 Prefill(預填充)和 Decode(解碼)環節(簡稱 PD),結合 PD 分離與融合模式,形成semi-PD方案,顯著加速計算推理輸出。
從優化結果可見,直觀體現了加速效果,這裡面隐含了一些更深的技術。
同時,我們在計算和通信 Overlap 上也做了非常多的工作。
針對大模型參數龐大導致的計算與通信硬體數據傳輸等待問題,我們開發了FlashOverlap功能,通過觸發式信号實現計算與通信的低成本覆蓋,讓硬體持續運行無閒置,使消費級與生產級顯卡實現約 1.5 倍加速,有力推動多類推理場景落地。
上述後端技術旨在讓客戶更好地利用算力,同時,我們還推出系列工具與工具鏈,通過WorkFlow 封裝和托管服務降讓產業用戶更好地把 AI 平台能力直接使用起來。
以生圖社區為例,開發者可将平時開發生圖的工作流一鍵部署至生產環境,無需深入了解 AI 部署細節,我們以黑盒模式處理底層復雜操作,讓開發者低成本将創意轉化為穩定服務,一鍵調用算力能力完成應用開發。
我們在算力規模化使用、部署加速及易用性等方面進行了多重優化,并将能力整合為平台化服務,集成合作夥伴的優化成果,以統一平台助力創業者和行業快速拓展應用,避免算力成為業務發展瓶頸。
目前,這些能力已集成至上海及各地公共算力平台,為孵化器、創業者和本地企業提供支持。
最終,我們希望實現 " 算力即生產力 ",讓算力成為标準化、高附加值的 " 拎包入住 " 基礎設施。算力像水電煤一樣流入到千行百業,流入到千家萬戶。
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
點亮星标
科技前沿進展每日見