今天小編分享的科技經驗:黃仁勳 2 個半小時演講,英偉達已經進入「Agentic AI」時代,歡迎閱讀。
「AI 屆春晚」過去以來一直是 GTC 的外号之一,但在 GTC 2025 的開幕主題演講中,這個梗被英偉達創始人、愛穿皮衣的老黃「偷了」。 「我覺得 GTC 已經變成了 AI 界的超級碗」
黃仁勳這樣介紹 GTC 的盛況。「但在這裡,AI 會讓我們每個人都成為赢家」。
在 GTC,沒有輸家好嗎|圖片來源:英偉達
但面對近期股價的數次暴跌,尤其是以 DeepSeek-R1 為代表的、對業内「我們真的需要這麼多 GPU 嗎」的質疑,GTC 作為「AI 春晚」,英偉達就必須拿出更多真的能鎮住場子的「硬貨」出來。
雖然不知是否也是受到股價影響,今天老黃的口條,相比以往明顯要「磕巴」了不少,但他在 150 分鍾内,接連給從 AI Agent 到數據中心的 AI 芯片、再到具身智能的多個行業生态,再次指明了未來。
再一次地,英偉達看到了 AI 的未來,現在,他們需要讓全世界一起相信。
Agentic 拯救英偉達
「It's all about Tokens」。
不同往屆 GTC 上來先介紹英偉達的硬通貨,今天的開場,老黃用 40 分鍾解讀了:Agentic AI 時代,英偉達的立身之本——越來越高效地處理 tokens(詞元)。部門時間内能處理的 tokens 百倍萬倍增長,同時部門算力成本和能耗下降。
在他看來,英偉達踩中 AI 風口的十幾年,AI 已經經歷了三代技術範式的轉移。最早是判别式 AI(語音識别、影像識别),接着是生成式 AI,然後就是當下我們身處的 Agentic AI,未來會是影響物理世界的 Physical AI。
黃仁勳秀出了 AI 技術發展的路徑|圖片來源:英偉達
每一代 AI 技術遷移,計算的方式都會發生改變。
從 AlexNet 到 ChatGPT,是從檢索的計算方式轉變為生成的計算方式。
而當 AI 從 ChatGPT 那種靠預測下一個 tokens、大概率出現幻覺的生成式 AI,邁向 Deep Research、Manus 這樣的 agentic AI 應用時,每一層計算都不同,所需要的 tokens 比想象的多 100 倍。因為在 Agentic AI 應用中,上一個 token 是下一個 token 生成時輸入的上下文、是感知、規劃、行動的一步步推理。
此刻,Agentic AI 就是我們現在所處的時代,AI 正在經歷一個新的拐點,它變得越來越智能、應用越來越廣泛,同時也需要更多的算力來支持它。
老黃用同一段提示詞下,代表兩種技術範式的開源模型—— Llama3.3 和 Deepseek-R1 所消耗的 tokens 舉例說明,以強化學習為主導的推理類應用,消耗了越來越多的 tokens、同時也讓 AI 應用也變得越來越可用。
這段提示詞是:「在我的婚宴上,需要 7 個人圍着一張桌子坐,我的父母和嶽父嶽母不應該坐在一起。而且,我媳婦堅持說她坐在我左邊照相時會更好看,但同時我需要坐在伴郎旁邊。我們這一輪怎麼坐?如果我們邀請牧師和我們坐在一起呢?」
DeepSeek-R1 的 Reasoning 模型給出了近 20 倍于傳統大模型的 Token 量|圖片來源:英偉達
如上圖左邊,Llama3.3 作為大語言模型,用不到 500 個 tokens 快速回答,但安排的客人座位并不滿足要求。對比之下,右邊的 R1 作為推理模型,用掉 8000 多個 tokens 得出了正确答案。
差别在于,左邊的大語言模型只嘗試了一次,右邊的推理模型嘗試了所有不同的可能性,然後反思、驗證了自己的答案。而且推理模型需要更多的計算,因為模型更復雜。R1 的尺寸是 6800 億個參數,它的下一代版本可能有數萬億個參數。
更進一步,Agentic AI 應用是無數次調用類似 DeepSeek-R1 做推理的過程,需要的計算只會更多。這也是為什麼 ChatGPT 可以免費、Deep Research 和 Operator 這種 agent 免費不起的原因(當前 OpenAI 分别以 20 美元、200 美元的價格提供服務)。
用預訓練放緩來審判英偉達還是太早了,因為,Scaling Law(縮放定律)的故事還沒有講完。
長思考的模型對于 Token 的需求有數倍提升|圖片來源:英偉達
老黃表示,除了預訓練和後訓練(微調),測試時的 Scaling Law 才剛剛開始。(指模型推理階段,動态分配計算資源以提升性能。例如,根據問題復雜度自動延長「思考時間」,或通過多次推理生成多個候選答案并擇優輸出)
在英偉達 GTC 的一篇官方博文中,Tokens(詞元)被視為 AI 的語言與貨币。它是 AI 在訓練和推理過程中處理的數據部門,用在預測、生成和推理的每一個場景。
在老黃看來,加速 AI 工作負載的新型數據中心「AI 工廠」,就是要高效地處理這些 tokens,将其從 AI 語言轉換為 AI 貨币——即智能。通過軟硬一體優化,以更低的計算成本處理更多 tokens。
如此一來,當更復雜、智能的推理模型,需要更快、更多地吞吐 tokens 時,如何能夠有一套軟硬兼施的計算系統讓它更加高效,就成為 AI 應用能不能賺錢的關鍵。
這就是 Agentic AI下,新黃氏定律曲線。
在性能、Token 和收入的多維度曲線下,廠商依然有盈利的機會|圖片來源:英偉達
而要想達到「Revenue」那個切面、讓 AI 應用實現商業化閉環,還得買英偉達,依舊是「買得多省得多」——不,現在是「買得多,賺得多」。
「AI 工廠」的作業系統—— Dynamo
不久前,最了解英偉達的「DeepSeek 靠軟硬一體優化實現了 550% 的理論利潤率」新聞刷屏。别忘了,了解英偉達的,也包括他自己。DeepSeek 在 Infra 上的彈藥,老黃也給你配齊了!
英偉達此次推出了一個新的「AI 工廠」引擎的作業系統,Dynamo。有了它,tokens 的吞吐和延遲還能大幅優化!
黃仁勳講解 Dynamo 如何實現 pd 分離 | 圖片來源:英偉達
為了讓一個更大的模型,更高效地產出更多 tokens,本身已經成為了一個工程學問題。如何合理利用流水線并行、張量并行、專家并行、在途批量化、pd 分離、工作負載管理,如何管理 KV cache,各家都拿出了不同的方案。
英偉達此次也推出了自己的方案,Dynamo。黃仁勳把這個推理服務庫比作新時代的 VMware,能夠自動編排如何讓 AI 在推理時代跑的更好——每秒能產生更多 tokens。
接下來黃仁勳簡直在直接對需要采購英偉達的數據中心喊話了:未來的每一個數據中心都會受到功耗的限制。你的營收也會受到功耗的限制,你能使用的電力就能推算出潛在營收。
采用 Blackwell,你在同樣電力下,能收獲更好的性能;再加上Dynamo,Blackwell 将能進一步優化—— Hopper 也能優化,但是沒那麼多。
按照英偉達的說法,使用 Dynamo 優化推理,能讓 Blackwell 上的 DeepSeek-R1 的吞吐量提升 30 倍。Dynamo 也完全開源。
引入 FP4 和 Dynamo 後 Blackwell 與 Hopper 系列芯片性能的對比 |圖片來源:英偉達
黃仁勳直接幫企業算起了賬:在同等功耗下,Blackwell 的性能比 Hopper 高出 4 — 5 倍的幅度。在「推理模型」的測試裡,Blackwell 的性能大約是 Hopper 的 40 倍。
同樣的 100 兆瓦數據中心,使用 H100 需要 1400 個機架,每秒可以生產 3 億個 token,使用 GB200,只需要 600 個機架,每秒可以產生 120 億個 token。
老黃:你買的越多,省的越多!
100 兆瓦數據中心算賬題|圖片來源:英偉達
不只有 Blackwell「超大杯」,還有光芯片落地
在硬體領網域,老黃還宣布了其 Blackwell AI 工廠平台的下一個演進版本———— Blackwell Ultra,旨在進一步提升 AI 推理能力。
與現存的 Blackwell 不同,據老黃介紹,Blackwell Ultra 專為 AI 推理而設計的:在 DeepSeek R1 發布之後,目前 OpenAI o1 與 Google Gemini 2.0 Flash Thinking 都是已經上市的推理模型產品。
Blackwell Ultra 具體包含 GB300 NVL72 和 HGX B300 NVL16 系統,其 AI 性能比其前代產品高出 1.5 倍。GB300 NVL72 在一個機架規模設計中連接了 72 個 Blackwell Ultra GPU 和 36 個基于 Arm Neoverse 的 NVIDIA Grace CPU。與 Hopper 一代相比,HGX B300 NVL16 在大型語言模型上提供了快 11 倍的推理速度,多 7 倍的計算能力和 4 倍的内存。同樣支持一道發布的 NVIDIA Dynamo 推理框架。
Blackwell Ultra 作為「超大杯」登場 | 圖片來源:英偉達
包括 AWS、谷歌雲和微軟 Azure 在内的主要科技公司和雲服務提供商,将從 2025 年下半年開始提供由 Blackwell Ultra 驅動的實例。
除了 Blackwell Ultra,英偉達還公布了其 2026 年和 2027 年數據中心路線圖的更新,其中就包括即将推出的下一代 AI 芯片 Rubin(以天文學家 Vera Rubin 命名)與 Rubin Ultra 的計劃配置。
下一代 AI 芯片代号為 Rubin | 圖片來源:英偉達
Rubin NVL144 機架,将與現有的 Blackwell NVL72 基礎設施直接兼容。而 Rubin Ultra 的整個機架将被新的布局 NVL576 取代。一個機架最多可容納 576 個 GPU。
除了這些相對枯燥的芯片迭代,英偉達還第一次公開了其光芯片在 AI 計算領網域的進展,老黃将其稱之為:
「下一代人工智能的基礎設施」
矽光芯片具有高運算速度、低功耗、低時延等特點,且不必追求工藝尺寸的極限縮小,在制造工藝上,也不必像電子芯片那樣嚴苛,必須使用極紫外光刻機,也就是因為「芯片戰争」,被大眾所熟知的 EUV。
目前,英偉達并未直接将光芯片技術用戶 AI 芯片上,而是與台積電(TSMC)合作,采用台積電的矽光子平台 Compact Universal Photonic Engine ( COUPE ) ,該平台使用台積電的 SoIC-X 封裝技術,同時結合了電子集成電路(EIC)與光子集成電路(PIC)。打造出兩款名為 Spectrum-X 和 Quantum-X 采用矽光子技術的交換機。
随着「人工智能工廠」在世界各地興建,能耗與運營成本,已經成為困擾巨型數據中心繼續拓展的關鍵問題;因此英偉達也在用矽光子技術,來嘗試進一步優化現有的巨型數據中心。
這些也正是矽光子技術大顯身手的場景,矽光子芯片有潛力徹底改變數據處理速度,同時加快推動量子計算技術的發展。同時新光子技術還将為數據中心的 GPU 集群節省數兆瓦的能源。
「人工智能工廠是一種具有極端規模的新型數據中心,網絡基礎設施必須進行改造以跟上步伐。」黃仁勳這樣介紹矽光子芯片在數據中心的應用前景。
Quantum-X InfiniBand 交換機采用特殊的線纜來加速運行 | 圖片來源:英偉達
據英偉達公開的信息,Spectrum-X 提供 100Tb/s 的總帶寬,總吞吐量為 400Tb/s,并且提供每端口最高 1.6Tb/s 的速度——是目前頂級銅纜傳輸最快速度的兩倍),連老黃自己都吐槽「這段介紹裡實在是太多 TB 了」。
Quantum-X 光子 InfiniBand 交換機将于 2025 年晚些時候上市,而 Spectrum-X 光子以太網交換機計劃于 2026 年發布。
最後,老黃還宣布了在 Rubin 之後的下一代 AI 芯片的架構命名 Feynman;這個名稱源自對量子計算領網域有着重要貢獻的科學家 Richard Phillips Feynman,他同時也是現代量子計算機概念的奠基人,于 20 世紀 80 年代提出了量子計算機的概念。
直到 2028 年的英偉達 AI 芯片硬體路線圖 | 圖片來源:英偉達
根據老黃公布的路線圖,Feynman 架構将于 2028 年登場——或許到那個時候,我們真的能看到量子計算技術出現重大突破了。
英偉達機器人生态完整成型
去年老黃在 GTC 上,伸出手臂,和一排人形機器人站在一起,已經成為經典一幕,
而今年,仿真數據和機器人,仍然出現在 GTC 的各個角落中。甚至在演講的一開始,老黃的講稿中,直接就把物理 AI 放在了 AI 發展的最高點上。
AI 發展的階段:後三個階段分别為生成式 AI、Agentic AI、物理 AI | 圖片來源:英偉達
不過,在整個 GTC 中,單就時長而言,涉及到物理 AI 的比重,并沒有想象中的高。自動駕駛部分和機器人部分的介紹加在一起,可能不足半個小時。
雖然時長不長,英偉達此次的發布,卻仍然讓人看到了英偉達的野心。
對于所有 AI 而言,數據、算法和算力,都是最重要的要素。
我們熟悉的生成式 AI,是在海量的互聯網文字和視頻數據中訓練出來的,英偉達的貢獻,更多的在算力方面。
而走到物理 AI,英偉達卻是想在數據、算法、算力上全方面發力,一個產業地圖已經呼之欲出。
在算力上,英偉達有之前發布的 Orin 和 Thor 芯片。
在數據上,英偉達也是重要的貢獻者。物理 AI 強調讓 AI 能夠理解物理世界,而世界在過去并沒有像積累文字和視頻數據一樣,積累足夠多的 3D 環境數據。要大量產生數據,還得看英偉達推動的仿真數據的進展。
而通過幾屆 GTC 下來,英偉達已經全面補齊了數據的生產流程:
Omniverse 數字孿生環境,相當于一個超強的 3D 編輯器,能夠生成逼真的場景和物品。開發者可以根據不同的領網域、機器人類型和任務,整合真實世界的傳感器數據或示範數據。
Cosmos 模型訓練平台,相當于一個專門為汽車和機器人搭建的虛拟世界,利用 Omniverse 訓練 Cosmos,能夠讓 Cosmos 生成無限多樣的虛拟環境,創建既受控、又具備系統性無限擴展能力的數據。
兩者結合,就能產出無限多各種各樣環境、光線、布景的虛拟仿真數據。正如下圖所示,Omniverse 中的機器人呈糖果色,主打與現實呈現數字孿生,而 Cosmos 中的布景則可以完全變換,生成不同的布景。
Omniverse 和 Cosmos 的機器人數據效果 | 圖片來源:英偉達
而針對人形機器人,英偉達還特别推出了一系列其他的工具,比如今年主推的藍圖(blueprint)工具中的 Mega,就可以測試大規模的機器人部署的效果。
英偉達希望人形機器人的開發者能夠先采集一部分現實世界的數據,導入 Omniverse 裡面,然後利用 Cosmos,将這部分現實世界的數據轉換成多樣化的虛拟數據,直接導入英偉達的 Issac Lab 中進行後期訓練——或者模仿學習復制行為,或者強化學習在試錯中學習新技能。
在落地更快的自動駕駛領網域,這種 Ominiverse 和 Cosmos 相互依仗的數據能力已經初見成效。此次的 GTC,英偉達宣布通用汽車(GM)已選擇與英偉達合作,共同打造未來的自動駕駛車隊。除了對利用仿真環境對工廠和汽車的設計進行改進之外,英偉達還将幫助通用汽車改進智駕體驗。
其中,通用汽車重點看中的,應該就是 Cosmos 的整套端到端的 AI 訓練體系。3D 合成數據生成(3D Synthetic Data Generation)能夠通過 Omniverse,将日志數據轉化為高精度 4D 駕駛環境,結合地圖和影像生成真實世界的數字孿生,包括像素級的語義分割。Cosmos 再通過這些數據擴展訓練集,生成更多準确且多樣化的駕駛場景,縮小仿真與現實(sim-to-real)的差距。
同時 Cosmos 為模型訓練也做了專門的優化,可以進行模型蒸餾和閉環訓練。
而落地更慢的人形機器人領網域,在去年到今年的 GTC 之間,我們甚至看到英偉達在算法上,也在發力。
在去年發布了 GR00T 模型之後,今年英偉達發布了 GR00T N1 模型。英偉達宣布這是全球首個開放的、完全可定制的通用人形機器人推理與技能基礎模型。
Groot N1 基于合成數據生成與仿真學習的技術基礎,采用了「快思考與慢思考」的雙系統架構。其中,「慢思考」系統讓機器人能夠感知環境、理解指令,并規劃正确的行動,而「快思考」系統則将規劃轉換為精準、連續的機器人動作。
Groot N1 架構 | 圖片來源:英偉達
Groot N1 本身并不是一個重大的技術突破——之前 FigureAI 的 Helix 等模型,都是采取了類似的雙系統架構。
英偉達很明顯,希望的是通過将一套先進的模型開源,再加上完整的合成數據生成與機器人學習管道,人形機器人開發者可以在全球各個行業的不同環境和任務場景中對 Groot N1 進行後期訓練——正如 DeepSeek 對人工智能產業的帶動一樣。
英偉達在機器人領網域的進展似乎一直沒有停歇,一直在不斷補齊產業鏈上的每一個空缺,速度驚人。似乎要讓機器人開發,變得像目前的 AI 應用開發一樣容易,才能停歇。
專門針對機器人的研發,今年英偉達還與 DeepMind、迪士尼研究院(Disney Research)共同合作,聯合推出了一款新的物理引擎 Newton。
黃仁勳與迪士尼機器人互動 | 圖片來源:英偉達
當前的大多數物理引擎都是針對特定需求設計的,例如大型機械模拟、虛拟世界或電子遊戲等,而機器人需要的,是能夠精确模拟剛體、軟體材料,支持觸覺反饋、時間序列技能學習、執行器控制,基于 GPU 加速,從而在超實時的虛拟世界中,以驚人的速度訓練 AI 模型的物理引擎。
在演講的結束,一款小小的 Blue 機器人登台亮相了。Blue 機器人内置了兩個英偉達芯片,而它的訓練,則是完全是在英偉達的建設的訓練體系和 Newton 引擎中,通過實時模拟完成的。
英偉達對于機器人的投入看來不會停止,機器人演示不斷出現小故障,搶走老黃的風頭,似乎也将成為接下來幾年英偉達 GTC 經常性的看點了。
演講結束前的經典畫面|圖片來源:光輪智能創始人 &CEO 謝晨
在 GTC 主演講結束之前,老黃在視頻播放的間隙,擺了一個 Pose。你可以說是随性,但從某種意義上來看,這個經典畫面——明顯是名畫「創造亞當」的一個鏡像——可能會在以後 AI 科技的歷史中不斷出現。