号稱GPU推理速度提高400%，騰訊紅杉投資的無問芯穹公布首個大模型算力平台

今天小編分享的互聯網經驗：号稱GPU推理速度提高400%，騰訊紅杉投資的無問芯穹公布首個大模型算力平台，歡迎閲讀。

（圖片來源：钛媒體 App 編輯拍攝）

钛媒體 App 獲悉，3 月 31 日上午，騰訊、百度投資的國内大模型領網域 AI Infra 公司無問芯穹在上海發布無穹 Infini-AI 大模型開發與服務平台。

無問芯穹表示，Infini-AI 大模型開發與服務平台包括一站式 AI 平台，以及兼容 infini-megrez、Llama、ChatGLM 等多個模型的大模型開發平台，利用 GPU 推理和加速技術，提供大模型開發、訓練、運行、應用的完整工具鏈。

清華大學電子工程系教授兼系主任，國家自然科學基金傑青、無問芯穹發起人汪玉教授早前表示，" 現在大家都在做各種各樣的非常厲害的芯片，但是，但怎樣去把模型更好的部署在這些芯片上，讓做應用開發等領網域人員不會花費額外的代價，其實會極大推動大模型研發。無問芯穹就是想要推動大模型技術設施發展進入各行各業。"

無問芯穹創始人、CEO 夏立雪透露，大模型服務平台于 3 月 31 日起開啓免費公測，給所有實名注冊的個人和企業用户提供百億 tokens 免費配額。一站式 AI 平台于 4 月 1 日 -4 月 30 日限時免費試用。

無問芯穹創始人、CEO 夏立雪

據悉，無問芯穹（Infinigence AI）成立于 2023 年 5 月，是一家專注于為 AI 2.0 時代提供完整解決方案的科技公司。

投融資層面，截至目前，無問芯穹并未公開融資，但工商信息顯示，騰訊、百度、紅杉中國、啓明創投、同歌創投、智譜 AI、真格基金、光源資本、綠洲資本、經緯創投、華控電科、北極光創投、金沙江創投、徐匯資本、南山資本等機構均有投資入股無問芯穹。

無問芯穹創始團隊來自清華大學電子工程系，致力于成為大模型落地過程中的 "M × N" 中間層，以打造大模型軟硬體一體化方案，鏈接上下遊，建立 AGI（通用人工智能）時代大模型基礎設施。

清華大學電子工程系教授兼系主任、無問芯穹發起人汪玉教授

無問芯穹發起人是汪玉教授。1982 年出生的汪玉，本科、碩士、博士均在清華大學，2007 年汪玉選擇留校任教，是目前清華大學最年輕的系主任。同時，清華大學電子工程系也是國内半導體產業的 " 黃埔軍校 "，包括燧原科技創始人兼 CEO 趙立東，前清華大學校長王希勤等人都畢業于該專業。

2016 年 1 月，以汪玉教授為負責人的深度學習處理器項目，通過清華大學電子信息學院論證并獲得支持。随後，項目團隊以知識產權轉化入股、創立 AI 芯片公司深鑑科技，進行產業化運營。其學生姚頌、單羿是深鑑科技創始成員，投資方包括高榕資本、金沙江創投、三星風投等機構。2018 年，深鑑科技被全球最大的 FPGA 廠商賽靈思收購，随後賽靈思也被美國芯片巨頭 AMD 公司所收購。如今的無問芯穹，或屬于汪玉的 " 二次創業 "。

無問芯穹聯合創始人、CEO 夏立雪博士則是汪玉的學生，于 2018 年在清華大學電子工程系獲得工學博士學位，于 2013 年在清華大學電子工程系獲得工學學士學位。此外，他還于 2017 年 1 月至 6 月赴杜克大學進行為期半年的訪問學者。夏立雪的研究内容為深度學習算法的硬體設計優化，關注層次主要包括算法層的模型壓縮、軟體層的算法編譯優化、以及面向新興存儲計算元件 RRAM 的深度學習計算平台體系結構和容錯方法研究等。

無問芯穹聯合創始人、CTO 顏深根是中科院博士，北卡州立大學訪問學者，曾任商湯科技數據與計算平台部執行研究總監、北京大學 - 商湯科技聯合實驗室副主任，曾帶領上百人優秀團隊幫助商湯開發包括 SenseParrots 在内的多個原創 AI 系統，建立了接近 2 萬片 GPU 的超大規模高性能 AI 計算平台。

無問芯穹聯合創始人兼首席科學家戴國浩，目前是上海交通大學長聘教軌副教授，CCC（清源研究院定制計算中心）Co-PI，DAI Group（人工智能設計自動化創新實驗室）負責人。戴國浩同為清華校友，分别于 2014 年和 2019 年取得清華電子工程系工學學士和博士學位。汪玉為其博士畢業論文指導老師。其主要研究方向是大規模稀疏圖計算、異構硬體計算、新興硬體架構等，畢業後，他曾為汪玉研究團隊的助理研究員，後于 2022 年加入上海交大任副教授，方向為稀疏計算、AI 電路與系統等。

2023 年，以 ChatGPT 為代表的 AI 大模型風靡全球，AI 2.0 時代正在到來，而算力訓練成本高、難以統一高效部署算力設施等，依然是大模型發展制約因素。

汪玉曾表示，大模型的湧現給 AI 、自動駕駛、科學計算以及機器人等領網域都帶來了顯著的促進作用，但當下，大模型落地面臨諸多挑戰，算力供需平衡、大模型應用降本需要軟硬一體協同優化的 AI 生态。

" 從個人的角度來看，當前大模型主要面臨三個方面的挑戰：第一，大模型面臨的算力限制；第二，當前推理和包括訓練在内的成本相當高，這是創業者和大公司普遍面臨的挑戰；第三，面對獨特的算法和多元硬體的生态，如何更有效地推動這個生态的發展，也是當前面臨的一個重要挑戰。" 汪玉表示。

汪玉曾透露，訓練 GPT-4 時需要使用到 2.4 萬張 A100 GPU。而以不同類型的模型和用户數來計算（推理階段），在自建算力集群的情況下，每天的費用可能達到 690 萬。如果使用現有的 API 運營，費用可能更高。而假設 GPT-4 Turbo 每天要為 10 億活躍用户提供服務，每年的算力成本可能超過 2000 億元。

夏立雪博士曾表示，算力不足仍然是制約通用人工智能發展的重要因素。GPU Utils 的一份數據顯示，全球目前 H100 等效算力的供給缺口達到 43 萬張。在解決算力不足的問題上，除了搶購和囤積英偉達，更多的方案正在浮出水面。

去年 7 月的一場演講中，汪玉表示，無問芯穹是面向大模型的 MxN 軟硬體聯合優化中間層的平台，利用其平台設施，推理成本、微調成本、人力成本均有望降低 10 倍以上，同時文本長度也會增加 10 倍以上。

簡單來説，無問芯穹做的任務屬于 AI infra 技術，M 層是大模型，N 層是 A100/H800 等國内外伺服器硬體，通過算子優化、自動編譯、不同芯片耦合等技術一鍵部署模型。

" 在芯片制造方面，我們面臨着算力密度的限制。目前大家正在讨論的是 1Tops/Watt 的設計，即每瓦特能夠提供 1T 次運算（人腦的功耗大約為 20 瓦）。未來在某些任務上，我們需要硬體去達到每瓦特 1000Tops/Watt 的指标。那麼如何通過芯片實現 1Tops/Watt，甚至幾百 T 或幾千 Tops/Watt 呢？過去幾年中，計算芯片通過尺寸微縮的紅利實現了各種各樣的專用處理器。現在，我們開始關注近存儲計算和存内計算，因為數據搬運相比數據計算更耗電，搬運數據（帶寬）變得更加復雜。進一步地，我們也在研究是否可以不使用硅基芯片、微電子，而是采用光電子來制造芯片，這是業内關注的一系列研究方向。另一方面，大模型的發展需要極高的互聯帶寬，根據實驗室理論計算，GPT-3 所需的互聯帶寬為 1380TB/s，而一張英偉達的卡自帶的 600GB/s 互聯帶寬與這一需求之間存在顯著差距。這也是為什麼需要将許多這樣的卡連接在一起，才能完成對這一模型的訓練。目前，計算性能的提升速度超過了帶寬的增速，尤其在多元互聯的應用場景中，如何有效地将機器連接起來是一項相當復雜的任務。我們也在思考，創建一種相對統一的中間層，以支持長文本、實現更高的性價比，同時實現一鍵部署。并且在這個中間層中，納入一些工具，以協助算法和應用的開發，比如整合算法壓縮、算子優化以及自動編譯等功能。通過這樣的中間層，有望更好地匹配 M 個大型模型和 N 個硬體，從而實現更加靈活的部署。" 汪玉曾表示。

所謂 AI Infra，是指構建 AI 所需的基礎設施，涵蓋連接算力和應用的 AI 中間層基礎設施，包括數據準備、模型訓練、模型部署和應用整合等環節。它不僅與算力相關，還包括大數據層面的優化。AI Infra 包括 AI 基礎框架技術，涉及大模型訓練、部署領網域的各種底層設施，以及基礎軟體棧等核心組成部分，主要目标是優化算力算法、促進應用落地。而 AI Infra 在 AI 行業中扮演着連接硬體、軟體和應用的關鍵角色，促進了 AI 技術的發展和應用。

2023 年 11 月，無問芯穹聯合清華大學、上海交通大學團隊在 Arxiv 上發表了一篇論文，提出了一種新方法 FlashDecoding++，通過異步方法實現注意力計算的真正并行，可以将 GPU 推理速度提高 2 倍 -4 倍（200%-400%），在英偉達 A100 顯卡上的推理平均加速 37%，以及同時支持英偉達和 AMD 的 GPU 產品。

另外，無問芯穹還自主研發 70 億參數大語言模型 " 無問天權 " —— infini-megrez-7b，支持英偉達和 AMD 的 GPU，以及無問芯穹自研高效推理引擎等。

據稱，目前無穹 Infini-AI 平台已支持了 Baichuan2、ChatGLM3、Llama2、Qwen 系列等共 20 多個模型，以及 AMD、壁仞、寒武紀、燧原、天數智芯、沐曦、摩爾線程、NVIDIA 等 10 餘種計算卡，支持多模型與多芯片之間的軟硬體聯合優化和統一部署。

針對此次公布的一站式 AI 平台和大模型服務平台，钛媒體 App 也進行了測試和體驗。

我們觀察到，從推理側來説，大模型服務平台的 chat 速度還是比較快的，同時也支持多個大模型、多款伺服器同時進行推理應用。但截至目前，钛媒體 App 測試的基于無穹 Infini-AI 平台的 infini-megrez-7b 和 ChatGLM3 模型，均不能提供汪玉教授準确的個人信息反饋，説明其知識體系無法實時更新，數據和模型能力仍需要加強。

钛媒體 App 還獲悉，無問芯穹還宣布将與智譜 AI 合作構建大模型訓推萬卡集群，并且與摩爾線程就 MTT S4000 千卡集群達成協定。

戴國浩透露，其團隊于今年 1 月初研發出全球首個基于 FPGA（現場可編程邏輯門陣列）的大模型處理器，通過大模型高效壓縮的軟硬體協同優化技術，使得 LLaMA2-7B 模型的 FPGA 部署成本從 4 塊卡減少至 1 塊卡，并且性價比與能效比均高于同等工藝 GPU，即展示 " 一張卡跑大模型 "。戴國浩稱其為無穹 LPU，預計将于 2025 年發布。（注：此前第四範式也公布了類似的 FPGA 的模型算力加速技術）

圓桌會議上，鴻博股份副總裁、英博數科科技有限公司 CEO 周韡韡博士表示，" 若算力不自由，則數據無意義。關于 AGI，關于未來，我們有太多美好的憧憬，但眼下最實在的是先讓可滿足通用型 LLM 的同構大型智算集群跑起來，再讓國内團隊在復現和追趕世界水平的同時，兼顧繁榮國產自主可控 AGI 生态發展。"

（本文首發钛媒體 App，作者｜林志佳）