今天小編分享的互聯網經驗:黃仁勳,拐點出現,歡迎閱讀。
出品|虎嗅科技組
作者|餘楊
編輯|苗正卿
頭圖|視覺中國
北京時間3 月 19 日凌晨 ,NVIDIA CEO 黃仁勳GTC(GPU技術大會)上發表了主題演講,數千名 AI 先鋒、開發者和戰略領導者線上相聚,分享 AI 與加速計算等領網域的最新突破,以及關于機器人、代理式 AI、物理 AI 等熱門話題的專題讨論。
演講全球同步直播,登場時,黃仁勳依舊身着标志性皮衣,向觀眾展示了5090,回顧着英偉達的故事,并介紹了英偉達在人工智能領網域的最新突破和未來發展方向。
黃仁勳指出, AI 從生成式邁向代理式(Agentic AI)和物理(Physical AI)時代,強調 AI 是終極生產力工具。英偉達憑借全棧技術(芯片、網絡、軟體)構建強大生态壁壘,将數據中心變為"Token 工廠",通過液冷機櫃和矽光子技術提升算力與能效,重塑計算本質,推動 AI 從數字世界向物理世界滲透,開啟智能新時代。
演講提要如下:
1. AI技術的演進與核心突破
生成式AI與推理模型:AI從感知(計算機視覺、語音識别)發展為生成式AI,能夠跨模态轉換(文本到影像、視頻、蛋白質結構等),并通過"推理模型"逐步分解問題,生成更智能的響應。其核心是通過鏈式推理(Chain of Thought)生成大量令牌(tokens),提升結果準确性,但需更高算力支持(如生成8000個令牌解決復雜問題)。
數據與訓練挑戰:AI依賴海量數據,強化學習(Reinforcement Learning)通過可驗證結果(如數學公式、物理定律)生成合成數據,解決了人類标注的局限性,推動模型訓練效率。
2. NVIDIA核心技術與產品
Blackwell架構:新一代GPU架構,性能較前代提升30%,體積縮小30%,支持更高能效與計算密度,适用于推理任務。通過NVLink 72技術實現多GPU高速互聯,構建超大規模AI工廠(每秒處理百萬級令牌)。
Dynamo作業系統:專為AI工廠設計的作業系統,協調計算資源,優化預填充(Prefill)與解碼(Decode)階段,支持動态負載分配(如專家并行、流水線并行),提升推理效率40倍。
Omniverse與物理AI:通過數字孿生技術模拟物理世界,加速機器人訓練與測試。結合生成式AI(如Project GR00T),開發通用人形機器人模型,實現復雜環境下的自主決策與協作。
3. 行業應用與合作夥伴
自動駕駛與汽車安全:NVIDIA與通用汽車(GM)合作開發自動駕駛系統,涵蓋訓練、模拟與車載AI。安全技術(HALOS)通過第三方評估确保代碼安全性,已應用于700萬行代碼。
通信與邊緣計算:與思科、T-Mobile合作構建5G智能網絡,利用AI優化信号适應動态環境,提升通信效率。
企業AI轉型:推出DGX系列AI伺服器(如DGX Station),聯合戴爾、惠普等企業,提供從數據中心到邊緣的完整AI基礎設施,支持金融、醫療、制造等行業的智能化更新。
4. 未來技術路線圖
計算架構更新:2024年推出Blackwell Ultra(性能提升1.5倍),2025年發布Vera Rubin架構(CPU性能翻倍,支持NVLink 144),2027年規劃Rubin Ultra(算力提升15倍)。
矽光子學與量子計算:采用微環諧振器(MRM)技術降低光模塊能耗,支持超大規模數據中心(百萬GPU互聯);布局量子計算,推動化學、材料科學等領網域的模拟加速。
AI工廠與能源效率:數據中心向"生成式計算"轉型,通過液體冷卻、同構架構優化能效,目标将AI工廠的算力密度提升至每機架600千瓦,支撐萬億美元級基礎設施建設。
5. 社會影響與願景
勞動力變革:AI代理(Agents)将重塑企業IT,未來10年或出現百億數字工作者,協助人類完成設計、優化等任務。
機器人普及:解決全球勞動力短缺(預計缺5000萬工人),推動倉儲、制造等領網域的自動化,人形機器人(如Isaac Lab)通過合成數據與強化學習實現快速技能迭代。
以下是演講全文實錄:
讓我們開始吧。
首先,我要感謝所有贊助商,感謝所有參與此次會議的了不起的人,幾乎每一個行業都有代表。醫療保健行業也在場,交通運輸業,零售業。天哪,計算機行業。計算機行業的每個人都來了。看到各位真是太好了,感謝你們的贊助。
GTC始于GeForce。一切都始于GeForce。今天,我這裡有一塊GeForce 5090。令人難以置信的是,25年後,在我們開始研發GeForce的25年後,GeForce 5090在全在世界各地都賣光了。
這是5090,Blackwell架構。與4090相比,你看,其體積縮小了30%,它在消耗能量和令人難以置信的性能方面提高了30%,甚至很難與之相比。
原因在于人工智能。GeForce将CUDA技術帶給了世界。CUDA技術促進了人工智能的發展,而人工智能如今又反過來徹底革新了計算機圖形學。您所看到的這是實時的計算機圖形渲染,100%基于路徑追蹤。對于每個渲染的像素,人工智能都會預測另外15個像素。想一想,對于我們通過數學方法渲染的每一個像素,人工智能都會推斷出其他15個像素,而且它必須以極高的精度進行推斷,才能使影像看起來正确,它是暫時準确的,這意味着從一幀到另一幀向前或向後意味着它是計算機圖形。它必須暫時保持穩定,可信。人工智能取得了非凡的進步,這僅僅用了十年時間。
當然,我們讨論人工智能的時間比這更長一些,但人工智能真正進入全球公眾視野大約是在十年前。起初是從感知人工智能、計算機視覺、語音識别開始,然後是生成式人工智能。
在過去的五年裡,我們主要關注生成式人工智能,教授人工智能如何從一種模态轉換到另一種模态,例如文本到影像、影像到文本、文本到視頻、氨基酸到蛋白質、特性到化學物質。我們可以利用人工智能生成内容的各種不同方法。
生成式人工智能從根本上改變了計算的方式,我們從檢索式計算模型轉變為生成式計算模型。過去,我們幾乎所做的一切都是預先創建内容、存儲多個版本,并在使用時提取我們認為合适的版本。
現在,人工智能理解上下文,理解我們的請求,理解我們請求的含義,并生成它已知的内容。如果需要,它會檢索信息,增強其理解,并為我們生成答案。它不再檢索數據,而是生成答案,從根本上改變了計算的方式,計算的每一層都發生了轉變。
在過去的幾年裡,特别是最近兩三年,發生了重大的突破,人工智能領網域的基礎性突破。我們稱之為自主智能AI。自主智能AI,從根本上說,是指具備自主性的AI,它能夠感知和理解環境的上下文,能夠進行推理,能夠推理如何回答問題或如何解決問題,并且能夠計劃行動。它能夠計劃并采取行動,能夠使用工具。因為它現在能夠理解多模态信息,它可以訪問網站,查看網站的格式、文字和視頻,甚至可以播放視頻。從網站獲取的信息中學習,理解這些信息,然後返回并使用這些信息,利用這些新獲得的知識來完成它的任務,具有自主代理能力的人工智能。
自主代理人工智能的基礎是某種非常新穎的東西——推理能力。
下一波浪潮已經到來,今天我們要好好談談這個問題,即物理人工智能賦能的機器人技術,能夠理解物理世界的人工智能。它理解摩擦、慣性、因果關系和物體恒存性等概念。有些疑惑并不意味着它已經從這個宇宙中消失了。它還在那裡,只是看不見。因此,這種理解物理世界(三維世界)的能力将開啟一個我們稱之為物理人工智能的新時代,并将推動機器人技術的發展。
每一個階段,每一波浪潮,都為我們所有人開啟了新的市場機遇,它為GTC吸引了更多的新合作夥伴。因此,GTC現在非常擁擠。為了容納更多GTC的參與者,我們必須擴大聖何塞的規模,我們正在努力進行中。我們有很多土地可以利用,我們必須發展聖何塞。這樣我們才能讓GTC看到這一點。
我站在這裡,希望你們都能看到我看到的景象。我們身處一個體育場館的中央。去年是這項活動恢復線下舉辦的第一年,那感覺就像一場搖滾音樂會。GTC被描述為人工智能的伍德斯托克音樂節。而今年,它被描述為人工智能的超級碗。唯一的區别是,在這個超級碗中,人人都是赢家。因此,每年都有越來越多的人參與其中,因為人工智能能夠為更多行業和公司解決更有趣的問題。
今年,我們将談論更多關于自主型人工智能和物理人工智能。
其核心在于,每一波、每一階段的人工智能發展,都涉及三個基本要素。首先是如何解決數據問題?這之所以重要,是因為人工智能是一種數據驅動的計算機科學方法。它需要數據來學習,需要數字體驗來學習,學習知識并獲得數字體驗。
第二個問題是,在沒有人參與的情況下,如何解決訓練問題?人工幹預之所以從根本上具有挑戰性,是因為我們的時間有限,而我們希望人工智能能夠以超人的速度學習,以超實時速度學習,并能夠以人類無法企及的規模進行學習。
第三點是如何實現規模化?如何找到一種算法,使得無論提供何種資源,投入的資源越多,AI 就越智能?規模化定律。去年,幾乎全世界都錯了。AI 的計算需求,其規模化定律具有更強的韌性,事實上是超加速的。由于自主智能(Agentic AI)和推理能力的緣故,我們目前所需的計算量,比去年這個時候我們預期的要多至少100倍。
讓我們來分析一下為什麼這是真的。首先,讓我們從AI的能力入手,讓我倒過來解釋。如我在所述,自主智能(Agentic AI)就是推理。我們現在擁有能夠進行推理的AI。這從根本上來說是關于将問題一步一步分解的過程。它可能會嘗試幾種不同的方法來解決問題,并選擇最佳答案。也許它會用多種方法解決同一個問題,并确保得到相同的答案,即進行一致性檢查。或者,在得出答案之後,它可能會将答案代回方程(例如二次方程)中,以确認答案的正确性。而不是僅僅直接給出答案。
還記得兩年前,當我們開始使用ChatGPT時,盡管它是一個奇迹,但許多復雜的問題和許多簡單的問題,它都無法正确解答。這是可以理解的。它采用了一種"一擊即中"的方式,利用其從預訓練數據中學習到的知識,以及從其他經驗中獲得的信息(預訓練數據),然後直接給出答案,就像一條鲑魚一樣(直來直去)。
現在我們擁有能夠逐步推理的人工智能。使用稱為"思維鏈"(chain of thought)、"最佳N"(best of N)、"一致性檢查"(consistency checking)、多種不同路徑規劃以及各種不同技術,我們現在擁有能夠進行推理的人工智能,将問題分解,然後進行推理,逐步進行。
那麼,您可以想象,結果就是我們生成的标記數量增加了,而人工智能的基本技術仍然相同,生成下一個标記,預測下一個标記。只不過下一個标記現在構成了步驟1。然後,在生成步驟1之後,下一個标記會将步驟1再次輸入人工智能,從而生成步驟2、步驟3和步驟4。因此,它不是僅僅生成一個接一個的标記或單詞,而是生成代表推理步驟的單詞序列。結果生成的标記數量大幅增加,我稍後會向您展示,輕松地達到之前的百倍。
那麼,百倍意味着什麼?嗯,它可以生成百倍數量的标記,正如我之前解釋的那樣,您可以看到這種情況正在發生。或者,模型更加復雜。它生成的标記數量是之前的十倍,為了保持模型的響應速度和互動性,避免我們因等待其思考而失去耐心,我們現在需要計算速度提高十倍。因此,标記數量十倍,速度十倍,我們必須進行的計算量輕松地就達到了百倍。因此,您将在演示的其餘部分看到,我們進行推理所需的計算量比以往大幅增加。
那麼,問題就變成了,我們如何教會人工智能執行我剛才描述的操作?如何執行這種思維鏈?嗯,一種方法是,你必須教會人工智能如何推理。正如我之前提到的,在訓練過程中,我們必須解決兩個根本性問題。數據從何而來?數據從何而來?以及如何避免其受到人工幹預的限制?我們所能提供的數據和人工演示是有限的。
因此,過去幾年取得的重大突破是強化學習及其可驗證的結果。從根本上說,強化學習是指人工智能在逐步嘗試解決問題或進行攻擊的過程中進行學習。
人類歷史上已經解決了許多問題,我們知道這些問題的答案。我們知道求解二次方程的公式。我們知道如何運用勾股定理,也就是直角三角形的法則。我們掌握着大量數學、幾何、邏輯和科學規則。我們可以提供各種益智遊戲作為訓練素材。例如數獨之類的受限型問題。這類問題數不勝數,我們擁有數百種問題空間,能夠生成數百萬個不同的示例。并給人工智能成百上千次機會來一步一步地解決它,因為我們使用強化學習來獎勵它做得越來越好。
因此,我們使用了數百個不同的主題、數百萬個不同的示例和數百次的嘗試。每次嘗試都會生成數萬個标記。将所有這些加起來,我們談論的是數萬億個标記,用于訓練該模型。現在,借助強化學習,我們能夠生成海量标記。這基本上是利用一種機器人式的方法來訓練AI,即合成數據生成。這兩者的結合給業界帶來了巨大的計算挑戰。
而且您可以看到,業界正在做出回應。我接下來将向您展示的是四大雲服務提供商的Hopper伺服器出貨量。四大雲服務提供商,擁有公有雲的那些提供商:亞馬遜、Azure、GCP 和 OCI。四大雲服務提供商,不包括人工智能公司,不包括所有初創企業,不包括企業内部部署。許多其他方面均未包含在内,只有那四個。
只是為了讓您了解一下霍珀的巅峰年份和布萊克威爾的起始年份的對比。霍珀的巅峰年份和布萊克威爾的起始年份,這樣您就能看出,事實上,人工智能正在經歷一個拐點。它變得更有用,因為它更聰明了,它能夠進行推理,它被更多地使用了。
你可以看出它被更多地使用了,因為現在無論何時你使用ChatGPT,似乎都需要等待越來越久。這是一件好事,這表明很多人都在使用它,并且效果顯著。訓練這些模型和進行模型推理所需的計算量已大幅增長。
因此,僅僅一年時間,而Blackwell才剛剛開始發貨,就能看到人工智能基礎設施的驚人增長。
這反映了整個行業的計算能力提升。我們現在看到的是——紫色部分是分析師對未來全球數據中心資本支出的預測,包括雲服務提供商(CSP)、企業等等。全球數據中心在未來十年内的發展,也就是到2030年。
我之前說過,我預計數據中心建設投資将達到一萬億美元,而且我相當肯定我們很快就會達到這個數字。兩種動态同時發生。
第一種動态是,絕大部分增長可能會加速。這意味着我們已經知道一段時間了,通用計算已經走到盡頭,我們需要一種新的計算方法。全世界正在經歷一場平台轉變,從運行在通用計算機上的手工編碼軟體轉向運行在加速器和GPU上的機器學習軟體。這種計算方式目前已經過了臨界點。
我們現在正看到拐點正在出現,全球數據中心建設中正在發生拐點。
因此,首先是計算方式的轉變。其次是人們越來越認識到,軟體的未來需要資本投入。這是一個非常重要的概念。在過去,我們編寫軟體并在計算機上運行它,而在未來,計算機将為軟體生成Token。因此,計算機已成為Token的生成器,而非檔案的檢索工具。從基于檢索的計算轉變為基于生成的計算,從舊式數據中心構建方式轉變為構建新型基礎設施的新方式,我稱之為"AI工廠"。
因為它只有一個任務,那就是生成這些令人難以置信的Token,然後我們将這些Token重構為音樂、文字、視頻、研究成果、化學物質或蛋白質。我們将其重構為各種類型的信息。因此,世界正在經歷一場轉型,這不僅體現在将要建設的數據中心數量上,也體現在其建設方式上。
數據中心中的所有内容都将被加速,但并非所有内容都與人工智能相關。
這張幻燈片是我最喜歡的。多年來參加GTC的各位,一直在聽我談論這些庫。這張幻燈片正是GTC的核心所在。事實上,很久以前,20年前,這就是我們唯一擁有的幻燈片。
一個又一個的庫,層層疊疊。我們不能僅僅加速軟體,正如我們需要一個AI框架來創建AI,并加速AI框架一樣。你需要物理學、生物學、多物理場以及各種量子物理學的框架。
你需要各種庫和框架。我們稱它們為CUDAx庫,針對這些科學領網域的加速框架。
第一個就令人難以置信。這就是cuPy數值計算庫。NumPy是全球下載量和使用量最大的Python庫。去年下載量達4億次。
cuLitho和cuPy數值計算庫是對NumPy的零改動加速替代方案。因此,如果您正在使用NumPy,請嘗試使用cuPy數值計算庫,您一定會喜歡它。
cuLitho是一個計算光刻庫。在四年時間裡,我們已經完成了整個計算光刻處理流程,這相當于晶圓廠中的第二個工廠。
一個工廠制造晶圓,另一個工廠制造制造晶圓所需的信息。
未來,每個行業、每家擁有工廠的公司都将擁有兩個工廠,一個工廠用于制造產品,另一個工廠用于處理數學計算,另一個工廠用于人工智能。
汽車工廠,以及用于汽車的人工智能工廠。智能音箱的制造工廠,以及用于智能音箱的AI工廠。
我們的計算光刻技術cuLitho,台積電(TSMC)、三星(Samsung)、ASML,以及我們的合作夥伴Synopsys、Mentor,都給予了令人難以置信的支持。我認為這已經達到了臨界點。
再過五年,每一張掩模版,每一項光刻工藝都将在NVIDIA CUDA上進行處理。
Arial是我們的5G庫,它将GPU轉變為5G無線電。為什麼不呢?信号處理是我們非常擅長的事情。
一旦我們做到這一點,我們就可以在其上疊加AI。用于無線接入網的AI,或者我們稱之為AI-RAN。下一代無線網絡将深度嵌入AI。
為什麼我們會受到信息論限制的約束?因為我們所能獲取的信息頻譜是有限的,即使加入人工智能也無法改變這一事實。
CuOpt,數值或數學優化,幾乎每個行業在規劃座位和班機時都會用到它,庫存和客戶,工人和工廠,司機和乘客,等等。
我們面臨多個約束條件,以及大量的變量。并且你正在針對時間、利潤、服務質量、資源利用率等等進行優化。英偉達将其用于供應鏈管理。
CuOpt是一個令人難以置信的庫。它将原本需要數小時才能完成的任務縮短至幾秒鍾, 這之所以意義重大,是因為我們現在可以探索更大的空間。
我們宣布将開源CuOpt, 幾乎每個人都在使用Gurobi、IBM CPLEX或FICO。我們正在與這三家公司合作。行業對此非常興奮。我們即将極大地加速該行業的發展。
Parabricks用于基因測序和基因分析。MONI是世界領先的醫學影像庫。Earth2,用于預測超高分辨率局部天氣的多物理場模拟軟體。
量子計算(Q-Quantum)和量子到量子(Q2Q)技術。我們将在GTC舉辦首屆量子計算日。我們正與生态系統中的幾乎所有參與者合作。
我們協助他們進行量子架構、量子算法的研究,或構建經典加速的量子異構架構。因此,那裡的工作令人興奮。
量子等變性(Q-equivariance)和量子張量(Q-tensor)用于張量收縮和量子化學計算。
當然,這個軟體棧享譽全球。人們認為只有一種名為CUDA的軟體,但事實上,在CUDA之上還有許多庫,這些庫集成到生态系統、軟體和基礎設施的所有不同部分,以實現人工智能。
我今天要宣布一個新的成果, CUDSS,我們的稀疏求解器,對于計算機輔助工程(CAE)至關重要。
這是過去一年中最重要的突破之一。通過與Cadence、Synopsys、Ansys和達索系統等所有系統公司合作,我們現在已經實現了幾乎所有重要的EDA和CAE庫的加速。
令人驚奇的是,直到最近,英偉達仍在使用通用計算機運行軟體,速度非常慢,來為其他人設計加速計算機。原因是直到最近,我們才擁有針對CUDA優化的軟體,即那套軟體。因此,随着我們轉向加速計算,整個行業都将得到極大的提升。
CUDF,一個用于結構化數據的DataFrame,我們現在擁有對Spark和Pandas的即插即用式加速功能。
我們還有Warp,一個在Python中運行的用于物理學的CUDA庫。我們對此有一個重大宣布,我稍後再詳細說明。這只是能夠實現加速計算的庫的示例。
這不僅僅是CUDA,我們為CUDA感到自豪,但如果沒有CUDA以及我們龐大的安裝基礎,這些庫對任何使用它們的開發者來說都将毫無用處。
對于所有使用這些庫的開發者而言,你們之所以使用它們,首先是因為它能夠極大地提高速度,它能夠極大地提高規模。
其次,因為CUDA的安裝基礎現在已遍布全球。它存在于每一個雲平台、每一個數據中心,全球每一家計算機公司都提供它,它幾乎無處不在。因此,通過使用這些庫中的一個,你們的軟體,你們令人驚嘆的軟體,能夠觸及每個人。
所以我們現在已經達到了加速計算的臨界點。CUDA 使這一切成為可能。各位,這就是GTC的意義所在,生态系統,是你們所有人成就了這一切。因此,我們為您制作了一段簡短的視頻。
謝謝,致未來的創造者、先驅者和建設者,CUDA 是為你們而生的。自2006年以來,超過200個國家的600萬開發者使用了CUDA,并徹底改變了計算方式。
借助900多個CUDAx庫和人工智能模型,您正在加速科學發展,重塑產業格局,并賦予機器感知、學習和推理的能力。現在,NVIDIA Blackwell的速度比第一代CUDA GPU快50,000倍。
這些數量級的速度和規模提升正在縮小仿真與實時數字孿生之間的差距。對您而言,這僅僅是一個開始。我們迫不及待地想看到你們的下一個成就。
我熱愛我們所做的一切。我更欣賞你們對它的運用。在我從事這項工作33年裡,最令我感動的一件事是一位科學家對我說:"詹森,因為你的工作,我可以在有生之年完成我畢生的工作。"如果這都不能觸動你,那你一定是個沒有感情的人。所以這一切都是為了你們。謝謝。
好吧,接下來我們談談人工智能。
但是,你們知道,人工智能起源于雲端。它起源于雲端是有原因的,因為事實證明人工智能需要基礎設施。它是機器學習。如果科學證明是機器學習,那麼就需要一台機器來進行科學研究。
因此,機器學習需要基礎設施,而雲數據中心擁有這種基礎設施。它們還擁有非凡的計算機科學實力和卓越的研究能力,構成了人工智能在雲端和雲服務提供商(CSP)中蓬勃發展的理想環境。
但人工智能并非僅限于此。人工智能将無處不在。我們将從許多不同的角度探讨人工智能。當然,雲服務提供商青睐我們的領先技術。
他們欣賞我們擁有完整的技術棧,因為正如我之前解釋的那樣,加速計算不僅僅關乎芯片本身,甚至不僅僅是芯片和庫,以及編程模型。它包括芯片、編程模型以及在其之上運行的眾多軟體。整個技術棧都極其復雜,每一層,每一個庫,本質上都類似于SQL。
SQL,正如您所知,被稱為存儲内計算,是IBM引領的計算領網域的一次重大革命。SQL只是一個庫,試想一下。我剛剛向您展示了大量的庫,而且在人工智能領網域,還有更多庫。所以,這個技術棧非常復雜。
他們也喜歡這樣一個事實:雲服務提供商(CSP)喜歡英偉達CUDA開發者也是他們的客戶。因為最終,他們正在構建供全世界使用的基礎設施。因此,豐富的開發者生态系統受到了高度重視,并得到了深深的贊賞。
既然我們要将人工智能推廣到世界其他地區,那麼世界其他地區就會存在不同的系統配置、運行環境差異、特定領網域的庫差異以及使用差異。
因此,人工智能在應用于企業 IT、制造業、機器人技術或自動駕駛汽車,甚至是在構建 GPU 雲的公司中,都會有所不同。
大約有20家公司是在英偉達時期成立的,他們只做一件事:他們托管 GPU。他們稱自己為 GPU 雲。我們的一位重要合作夥伴 CoreWeave 正在上市過程中,我們為此感到非常自豪。因此,GPU 雲有其自身的要求。
但令我非常興奮的一個領網域是邊緣計算。
今天,我們宣布思科、英偉達、T-Mobile(全球最大的電信公司)和 Cerberus ODC 将在美國建立一個用于無線網絡的完整技術棧,這就是第二個技術棧。
因此,我們今天宣布的這個當前技術棧将把人工智能部署到邊緣。請記住,全球每年有1000億美元的資本投資用于無線網絡,以及所有為通信提供服務的數據中心。
未來,在我看來,毫無疑問,這将是融合了人工智能的加速計算。
人工智能将在适應無線電信号、大規模MIMO(多輸入多輸出)系統變化的環境和交通狀況方面做得更好得多。當然可以。當然我們會使用強化學習來做到這一點。當然,MIMO 本質上就是一個巨大的無線電機器人。當然是的。因此,我們當然會提供這些功能。
當然,人工智能可以徹底改變通信方式。你知道,當我打電話回家時,不需要說很多話,因為我妻子知道我在哪裡工作,工作環境如何。談話可以從昨天繼續進行。她多少記得我喜歡什麼,不喜歡什麼。很多時候,只需要幾句話,就能溝通很多信息。原因在于上下文和人類先驗知識。結合這些功能,可以徹底改變通信方式。看一下它對視頻處理的影響。看一下我之前描述的3D圖形技術。
因此,我們當然也會對Edge采取同樣的做法。所以我對我們今天宣布的消息感到非常興奮。T-Mobile、思科、英偉達、Cerberus和ODC将構建一個完整的技術棧。嗯,人工智能将滲透到各個行業。
這只是一個例子,人工智能進入最早的行業之一是自動駕駛汽車領網域。當我們看到AlexNet的那一刻,我們長期以來一直在從事計算機視覺的研究,看到AlexNet的那一刻是如此令人鼓舞、如此令人興奮,這促使我們決定全力投入自動駕駛汽車的研發。
所以我們現在已經在自動駕駛汽車領網域工作了十多年。我們開發的技術幾乎被每一家自動駕駛汽車公司都在使用。它可以位于數據中心,例如,特斯拉在其數據中心大量使用英偉達GPU,這可能位于數據中心或車輛中,Waymo和Wave也将其數據中心和車輛中使用英偉達的計算機。它可能只在車輛中,這種情況非常罕見,但有時它只在車輛中。或者他們還會使用我們所有的軟體。我們與汽車行業合作,合作方式取決于汽車行業的需求。
我們制造所有三種計算機:訓練計算機、仿真計算機和機器人計算機(自動駕駛汽車計算機)。以及位于其之上的所有軟體棧,包括模型和算法,這與我們為其他所有已展示的行業提供的服務相同。
因此,今天,我非常高興地宣布,通用汽車公司已選擇英偉達作為其未來自動駕駛汽車車隊的合作夥伴,自動駕駛汽車的時代已經到來。
我們期待在所有三個領網域與通用汽車人工智能公司合作。用于制造業的人工智能,以便徹底改變他們的制造方式。用于企業的人工智能,以便徹底改變他們的工作方式。設計汽車和模拟汽車。以及車載人工智能。
因此,為通用汽車打造人工智能基礎設施,與通用汽車合作,并與他們一起構建其人工智能。我對此感到非常興奮。我深感自豪的領網域之一,而且很少受到關注,那就是安全。汽車安全。它被稱為HALOS。
在我們公司,它被稱為HALOS。安全需要從矽到系統、系統軟體、算法、方法論等各個方面的技術,從确保多樣性到多樣性監控和透明性、可解釋性,所有這些都包括在内,所有這些不同的理念都必須深深融入到您開發系統和軟體的每一個環節中。
我相信,我們是世界上第一家對每一行代碼都進行安全評估的公司。七百萬行代碼都經過了安全評估。我們的芯片、系統、系統軟體和算法都經過了第三方的安全評估,他們會仔細檢查每一行代碼,以确保其設計能夠保障多樣性、透明度和可解釋性。我們還提交了超過一千項專利申請。
在此次GTC期間,我強烈建議您抽出時間參加HALOS研讨會,以便了解确保未來汽車安全和自主駕駛所需的所有不同方面。我對此感到非常自豪,但它很少受到關注,所以我認為這次應該花更多時間來談論它。英偉達HALOS。
你們都見過自動駕駛汽車。Waymo自動駕駛出租車令人難以置信。我們制作了一個視頻,與大家分享我們用于解決數據、訓練和多樣性問題的部分技術,以便利用人工智能的魔力來創造人工智能。
讓我們來看一看。英偉達正在通過Omniverse和Cosmos加速自動駕駛汽車的人工智能開發。Cosmos的預測和推理能力支持基于人工智能的自動駕駛系統,這些系統采用端到端訓練方法,包括新的開發方法、模型蒸餾、閉環訓練和合成數據生成。
首先,模型蒸餾。Cosmos的駕駛知識,作為策略模型,從較慢、更智能的教師模型轉移到車載更小、更快的學生模型中。
教師策略模型展示了學生模型通過迭代學習所遵循的最佳軌迹,直至其性能幾乎達到與教師相同的水平。蒸餾過程能夠引導策略模型的建立,但復雜場景需要進一步微調。
閉環訓練能夠對策略模型進行精細調整。利用Omniverse神經重建技術,将日志數據轉換為用于物理基礎模拟閉環的3D場景。創建這些場景的變體,以測試模型的軌迹生成能力。
Cosmos行為評估器随後可以對生成的駕駛行為進行評分,以衡量模型性能。新生成的場景及其評估創建了一個用于閉環訓練的大型數據集,幫助自動駕駛汽車更穩健地應對復雜場景。
最後,3D合成數據生成增強了自動駕駛汽車對不同環境的适應性。Omniverse從日志數據中,通過融合地圖和影像構建詳細的4D駕駛環境,并生成真實世界的數字孿生體,包括語義分割,以通過對每個像素進行分類來指導Cosmos。然後,Cosmos通過生成準确且多樣化的場景來擴展訓練數據,縮小模拟與現實之間的差距。
Omniverse和Cosmos使自動駕駛汽車能夠學習、适應并智能駕駛,從而提升出行安全。英偉達是完成這項工作的理想公司。
這就是我們的命運:利用人工智能來重塑人工智能。我們向您展示的技術與您正在享用的技術非常相似,帶您進入數字孿生世界,我們稱之為英偉達。
讓我們談談數據中心。布萊克韋爾項目已全面投產,這就是它的樣子。
這令人難以置信,對人們而言,這是一種美的景象。這意義重大,因為我們在計算機架構方面實現了根本性的轉變。
大約三年前,我曾向你們展示過這個版本的系統,它被稱為Grace·Hooper,系統被稱為Ranger。
Ranger系統大概只有螢幕寬度的一半,它是全球首個NVLink 32系統。三年前,我們展示了Ranger的運行情況,當時它過于龐大,但其理念完全正确。
我們當時試圖解決規模擴展問題。分布式計算是利用許多不同的計算機協同工作來解決一個非常大的問題。
但在橫向擴展之前,縱向擴展是不可替代的。兩者都很重要,但應該優先進行縱向擴展,然後再進行橫向擴展。然而,縱向擴展極其困難,并沒有簡單的答案。你不會像Hadoop那樣進行縱向擴展或橫向擴展。Hadoop的做法是,采用大量商用計算機,将其連接到大型網絡中,并使用其進行存儲計算。
Hadoop 的理念具有革命性意義,這一點我們都很清楚。它使得超大規模數據中心能夠利用現成的計算機解決海量數據問題。然而,我們試圖解決的問題極其復雜,以這種方式進行擴展的成本将高得令人難以承受,無論是電力成本還是能源成本。深度學習根本不可能出現。
因此,我們必須首先進行垂直擴展。這就是我們進行垂直擴展的方式。這是上一代系統架構,被稱為 HGX。這徹底改變了我們所知的計算技術,也徹底改變了人工智能。
這是八個GPU,每一個都類似于這個。這是兩個GPU,一個Blackwell封裝中包含兩個Blackwell GPU。在這下面還有八個這樣的單元。然後這連接到我們稱之為NVLink 8 的部件。
然後這連接到類似這樣的CPU機架。這裡有兩個CPU,位于頂部。我們通過PCI Express将其連接起來,然後許多這樣的設備通過InfiniBand連接,最終形成一台人工智能超級計算機。過去就是這樣做的,我們就是這樣開始的。
這就是我們在擴展規模之前所能達到的極限。但我們希望進一步擴展規模。Ranger項目将這個系統又擴展了四倍。
因此,我們有了NVLink 32,但系統規模過于龐大。為此,我們不得不進行一些重要的重新設計,包括NVLink的工作方式以及ScaleUp的工作方式。
首先,我們需要将嵌入在主機板上的NVLink交換機從系統中解耦并移除。這是一個NVLink交換機,是世界上性能最高的交換機,它使得每個GPU都能以滿帶寬在完全相同的時間與其他每個GPU進行通信。
我們将NVLink交換機解耦并移除,并将其放置在機箱的中心。在九個不同的機架中,共有18個交換機托盤(我們稱之為)容納這些交換機。交換機解耦後,計算單元現在位于别處。這相當于計算方面的兩個部分。
令人稱道的是,它是完全液冷的。通過液冷技術,我們可以将所有這些計算節點壓縮到一個機架中,這對于整個行業而言是一項重大變革。
感謝各位,你們促成了從集成NVLink到解耦NVLink,從風冷到液冷,從每台計算機大約60,000個組件到每個機架600,000個組件的根本性轉變,以及120千瓦全液冷,從而使我們能夠在一個機架中擁有一個百億億次計算計算機。
這是計算節點,現在它可以安裝到其中一個機架裡。我們擁有3000磅的重量,5000根電纜,總長度約3.2公裡,難以置信的電子元件,60萬個零件,我想這相當于20輛汽車的零件數量,所有這些都集成到一台超級計算機中。我們的目标是大規模擴展,這就是它現在的樣子。
我們本質上是想制造這個芯片,但沒有任何激進的限制能夠做到這一點,沒有工藝技術能夠做到這一點。它擁有130萬億個晶體管,其中20萬億個用于計算。因此,短期内無法合理地制造它。
解決這個問題的方法,如我所描述的,是将它分解成Grace Blackwell NVLink 72機架。最終,我們實現了終極規模的提升,這是世界有史以來最極端的規模提升。
這台機器可能的計算量和内存帶寬達到了每秒570太字節。這台機器中的所有指标都達到了萬億級别。它擁有每秒一千萬億次浮點運算能力(即艾克斯浮點運算)。
我們之所以想要做到這一點,是為了解決一個極端的問題。許多人誤以為這個問題很容易解決,但實際上,這是一個終極的極端計算問題,那就是推理。
推理是工廠進行的Token生成過程,而工廠本身決定着收益和利潤的產生或虧損。因此,必須以極高的效率和性能來構建這個工廠,因為工廠的方方面面都直接影響着服務質量、收入和盈利能力。
現在,我來向您展示如何解讀這張圖表,因為我稍後還會多次回到這張圖表上來。基本上,它有兩個坐标軸。X 軸表示每秒Token數。每當您聊天,或者将提示輸入到 ChatGPT 時,輸出的結果都是Token。這些Token會被重新組合成文字。
需要注意的是,這不僅僅是一個Token對應一個單詞。它們會将諸如"THG"之類的詞元化,它可以指代"the"、"them"、"theory"、"theatrics",以及其他各種詞語。"THG"就是一個Token的例子。它們重新構建這些标記,使其轉化為單詞。
如果希望 AI 更聰明,就需要生成大量的标記。這些标記是推理标記、一致性檢查标記,它們會想出很多主意,以便從中選擇最好的主意和标記。這些标記可能會反復推敲,可能會思考:"這是你能做的最好的工作嗎?"所以它就像我們自言自語一樣,與自身對話。因此,你生成的标記越多,你的 AI 就越聰明。
但是,如果回答問題花費的時間太長,客戶就不會再回來了。這與網頁搜索沒有什麼不同。在它給出聰明答案之前,所需時間确實存在限制。因此,你需要應對這兩個維度的挑戰。你試圖生成大量的标記,但又試圖盡可能快地完成。因此,您的Token速率至關重要。所以您希望針對單個用戶的每秒Token數盡可能快。
然而,在計算機科學和工廠生產中,延遲響應時間和吞吐量之間存在根本性矛盾。如果你從事大型、高吞吐量的業務,你會進行批量處理。你将大量的客戶需求進行批量處理,并生產特定版本的產品供所有人稍後使用。
然而,從他們進行批量處理和生產產品的那一刻起,到您使用它為止,可能需要很長時間。計算機科學領網域亦是如此,生成Token的 AI 工廠也同樣如此。
所以,你面臨着這兩種根本性的矛盾。一方面,您希望客戶的服務質量盡可能好:快速且智能的 AI。另一方面,您正試圖讓您的數據中心為盡可能多的人生成Token,以便最大化您的收入。
理想的答案位于右上方。理想情況下,該曲線的形狀是一個正方形,您可以快速地為每個人生成Token,直到工廠的極限,但沒有哪個工廠能夠做到這一點。
因此,它可能是一條曲線,而您的目标是最大化曲線下的面積,即X和Y的乘積,并且您推得越遠,就越有可能意味着您正在建造一個更好的工廠。
事實證明,在每秒Token數(整個工廠的每秒Token數)與響應時間之間,一個需要大量的計算能力(浮點運算),而另一個維度則需要大量的帶寬和浮點運算。所以這是一個非常難以解決的問題。
好的答案是,您應該擁有大量的浮點運算能力、大量的帶寬、大量的内存以及其他一切資源。這是開始的最佳答案,這也是為什麼這是一台如此出色的計算機的原因。
你首先要擁有盡可能多的浮點運算能力、盡可能大的内存、盡可能高的帶寬,當然還要有最好的架構和最高的能效,并且你必須擁有一個編程模型,使你能夠在所有這些極其復雜的硬體上運行軟體才能做到這一點。
現在讓我們來看一個演示,讓你對我說的是什麼有一個切實的感受。請播放它。
傳統的LLM捕捉基礎知識,而推理模型則利用思維标記來幫助解決復雜問題。在這裡,一個提示要求在婚禮餐桌旁安排座位,同時遵守一些限制條件,例如傳統習俗、照片角度以及家族成員之間的矛盾。傳統的LLM能夠快速地給出答案,使用的标記少于500個。
它在安排賓客座位時犯了錯誤,而推理模型則使用了超過8000個标記進行思考,最終得出了正确的答案。這需要一位牧師來維持和平。
好吧,正如你們所知,如果你有一個300人的婚禮派對,并且你試圖找到完美的,或者說最佳的座位安排,這是一個只有人工智能才能解決或者只有嶽母才能解決的問題。
所以,這是協同計算無法解決的問題之一。
好,您在這裡看到的是,我們給它提供了一個需要推理的問題,您看到R1會就此進行推理,嘗試所有不同的場景,然後返回來檢驗自己的答案。它會自問是否做對了。
同時,上一代語言模型則采用一次性解決方法。因此,一次性解決方法使用了439個标記。它速度很快,效率很高,但結果是錯誤的。所以,這是439個被浪費的标記。
另一方面,為了對這個問題進行推理(實際上這是一個非常簡單的問題,只需增加幾個更難的變量,它就會變得非常難以推理),它使用了8000個,幾乎9000個标記。而且它需要更多的計算,因為模型更加復雜。
好,這是一個維度。在我向您展示一些結果之前,請允許我解釋其他一些内容。
因此,答案是,如果你觀察Blackwell系統,現在它已經擴展到NVLink 72。我們首先要做的是處理這個模型,而這個模型并不小。
以R1為例,人們認為R1很小,但它有6800億個參數。
下一代模型可能擁有數萬億個參數。解決這一問題的方法是将這些數萬億個參數和模型,将工作負載分布到整個GPU系統中。
可以使用張量并行,将模型的一層運行在多個GPU上;也可以取流水線的一部分,稱之為流水線并行,并将其放在多個GPU上;還可以将不同的專家模型放在不同的GPU上,我們稱之為專家并行。
流水線并行、張量并行和專家并行的組合方式數量龐大,令人難以置信。并且根據模型、工作負載和環境的不同,計算機的配置方式必須改變,以便獲得最大的吞吐量。有時需要優化極低的延遲,有時則需優化吞吐量,因此必須進行一些運行時批處理。批處理和聚合工作有很多不同的技術。因此,這些AI工廠的作業系統和軟體極其復雜。
其中一個觀察結果,也是擁有像NVLink 72這樣同構架構的真正優勢在于,每個GPU都能執行我剛才描述的所有操作。我們觀察到這些推理模型正在進行幾個計算階段。
其中一個計算階段是思考。當你在思考時,不會產生很多标記。你產生的标記可能你自己在使用,你在思考。也許你正在閱讀,正在消化信息。這信息可能是PDF文檔,也可能是網站,甚至可以觀看視頻,以超線性速率吸收所有這些信息,然後将所有這些信息整合起來,形成答案,制定一個計劃性的答案。
因此,信息消化和上下文處理非常依賴于浮點運算。
另一方面,在下一階段,稱為解碼階段,其第一部分我們稱為預填充,解碼的下一階段需要浮點運算,但需要巨大的帶寬。而且計算起來相當容易。如果你有一個模型,它有數萬億個參數,那麼每秒需要幾TB的數據,注意我之前提到過每秒576TB,僅僅是從HBM内存中提取模型就需要每秒TB級的數據。而且僅僅是為了生成一個标記。
它之所以只生成一個标記,是因為記住這些大型語言模型是在預測下一個标記,這就是它們預測下一個标記的原因。它不是預測每一個标記,而只是預測下一個标記。現在我們有了各種新的技術,例如推測性解碼等等,用于更快地完成這項工作,但最終,你是在預測下一個标記。
因此,你攝取、調入整個模型和上下文(我們稱之為KV緩存),然後生成一個标記。然後我們将這個标記放回我們的"大腦",生成下一個标記。每次執行此操作,我們都輸入數萬億個參數,輸出一個标記。
數萬億個參數輸入,輸出另一個标記。數萬億個參數輸入,輸出另一個标記。請注意,在演示中,我們輸出了8600個标記。
因此,數萬億字節的信息已被輸入到我們的GPU中,并一次輸出一個标記。這從根本上解釋了為什麼需要NVLink。NVLink使我們能夠将所有這些GPU組合成一個巨大的GPU,實現最終的規模擴展。現在所有内容都在NVLink上,我可以将預填充與解碼分離,并可以決定:我想為預填充使用更多GPU,為解碼使用更少GPU。
因為我正在進行大量的思考,進行一項自主性的工作,閱讀大量信息。我正在進行深入的研究。之前我一直在聽邁克爾講話,邁克爾也談到了他正在進行的研究,而我做的也是同樣的事情。我們會開展并撰寫這些非常冗長的AI研究項目,我非常喜歡做這件事。
我已經為此付出了代價,我非常享受讓我們的GPU運轉起來。沒有什麼能給我帶來更大的快樂。所以我在撰寫完畢後,它就開始運行,進行所有這些研究,它訪問了大約94個不同的網站,閱讀了所有這些信息,而我也在閱讀所有這些信息,然後它會形成一個答案并撰寫報告。這真是令人難以置信。
在那段時間裡,預填充一直非常繁忙。它并沒有真正生成很多标記。另一方面,當您與聊天機器人進行對話,并且數百萬人在做同樣的事情時,它就需要非常大量的标記生成。解碼工作量非常大。因此,根據工作負載,我們可能會決定将更多GPU分配到解碼,或者根據工作負載,将更多GPU分配到預填充。這種動态操作非常復雜。
我剛剛描述了流水線并行、張量并行、專家并行、飛行中批處理、解耦推理、工作負載管理,然後我還要處理一個叫做KV緩存的東西,我必須将其路由到正确的GPU,我必須通過所有内存層次結構來管理它。這段軟體極其復雜。
因此,今天我們宣布推出英偉達Dynamo。英偉達Dynamo能夠做到這一切。它本質上是AI工廠的作業系統。
在過去,在我們運行數據中心的方式中,我們的作業系統類似于VMware。我們會(而且現在仍然會),協調大量不同的企業應用程式在我們企業IT之上運行,我們也是大型用戶。
但未來,應用程式并非企業IT,而是智能體。作業系統也不再是VMware之類的軟體,而是Dynamo之類的軟體。而且這個作業系統運行的并非數據中心之上,而是AI工廠之上。我們将其命名為Dynamo是有充分理由的。如您所知,Dynamo是啟動上次工業革命的首個動力機械。
這是能源的工業革命。水流入,電力流出,這着實神奇。水流入,将其點燃,變成蒸汽,随後產生的便是這種無形卻極其寶貴的東西。歷經八十年發展,才有了交流電,但發電機是這一切的起點,是開端。
因此,我們将這個作業系統,這套軟體——極其復雜的軟體——命名為英偉達發電機(NVIDIA Dynamo)。它是開源的,我們很高興有諸多合作夥伴與我們共同開發。
我最喜歡的合作夥伴之一,我非常喜歡他,不僅因為他所做的革命性工作,還因為阿拉文德是一個非常好的人。Perplexity是我們合作攻克這一難題的重要夥伴。總之,非常好,非常好。
現在我們必須等待所有這些基礎設施擴展完畢,但與此同時,我們已經進行了一系列非常深入的模拟。我們用超級計算機模拟我們的超級計算機,這很有道理。
現在我将向大家展示我剛才所說的一切的好處。記住工廠示意圖。Y軸表示工廠的每秒Token吞吐量,X軸表示用戶體驗的每秒Token吞吐量。你需要超級智能的AI,并且需要生產大量的AI。
這是Hopper。它可以為每個用戶每秒產生大約100個Token。
這使用了八個GPU,通過InfiniBand互聯,我将其标準化為每兆瓦每秒的token數量。所以這是一個兆瓦級的數據中心,并非一個非常大型的AI工廠,但無論如何,它是一兆瓦的。它可以為每個用戶每秒產生100個token,并且在這個級别上,無論實際情況如何,它可以為該兆瓦級數據中心每秒產生10萬個token。或者,如果進行超級批量處理,并且客戶願意等待很長時間,那麼該AI工廠每秒可以產生大約250萬個token,明白了嗎?
記住,兩百五十萬,ChatGPT 的成本大約是每百萬個詞元10美元,對吧?每百萬個詞元10美元。
讓我們假設一下,我認為每百萬個詞元10美元的成本可能比較低,但我可能會說它比較低,但讓我假設它比較高,因為兩百五十萬乘以10,那就是每秒2500萬美元。這樣理解有道理嗎?這就是你思考問題的方式。
或者,如果成本低得多,那麼問題在于,假設是10萬美元,将其除以10。每個工廠每秒25000美元。然後是3100萬,一年大約有3000萬秒,這就能轉化為百萬級,兆瓦級數據中心的營收。所以這就是您的目标。
一方面,您希望您的Token速率盡可能快,以便您可以創造真正智能的AI,如果擁有智能AI,人們就會為此支付更多費用。另一方面,AI越智能,您所能生產的數量就越少。這是一個非常合理的權衡。這就是我們試圖改變的曲線。
現在,我向您展示的是世界上最快的計算機——Hopper。它徹底改變了一切。那麼,我們該如何改進它呢?因此,我們首先提出使用NVLink 8的Blackwell架構。同樣的Blackwell架構,相同的計算單元,以及使用FP8的NVLink 8計算節點。
因此,Blackwell更快了。更快、更大、更多晶體管,一切都要更多。
但我們想做的不止這些,因此我們引入了新的精度。這并不完全像4位浮點數那樣簡單,但使用4位浮點數,我們可以量化模型,用更少的能量做同樣的事情。因此,當您使用更少的能量做同樣的事情時,您可以做得更多。
因為請記住,一個重要的觀點是,未來每一個數據中心都将受到電力限制。您的收入将受到電力限制。您可以根據可用的電力來計算您的收入。這與許多其他行業沒有什麼不同。所以我們現在是一個受電力限制的行業。我們的收入将與此相關聯。基于此,您需要确保擁有盡可能高效節能的計算架構。接下來,我們将使用 NVLink 72 進行擴展。
請看 NVLink 72 FP4 的差異,由于我們的架構高度集成,現在我們又添加了 Dynamo,Dynamo 可以進一步擴展其性能。所以 Dynamo 也能幫助 Hopper,但對 Blackwell 的幫助更大。
現在請注意我标出的這兩個閃光點,這大概就是您的最大 Q 值所在。這很可能就是您運行工廠運營的地方。您正在嘗試在人工智能的最大吞吐量和最大質量之間找到平衡點。最智能的人工智能,以及最大數量的人工智能。這兩者的交點,正是您優化的目标。
這就是在查看這兩個方塊下方時呈現的樣子。Blackwell 的性能遠優于 Hopper。請記住,這并非指 ISO 芯片。而是指 ISO 功率。
這是最終的摩爾定律,始終是過去摩爾定律的核心所在。現在我們實現了這一目标,在單代產品中實現了 25 倍的 ISO 功率提升。這不是ISO芯片,也不是ISO晶體管,更不是任何ISO相關的組件。ISO功耗,是最終的限制因素。數據中心所能獲得的能量是有限的。因此,在ISO功耗限制下,Blackwell方案的效率提升了25倍。
現在我們看到了這張彩虹圖,令人難以置信。這才是有趣的部分。看,在帕累托前沿之下,有各種不同的配置方案,我們稱之為帕累托前沿。在帕累托前沿之下,存在數百萬種我們本可以用來配置數據中心的方法。
我們本可以以許多不同的方式将工作并行化、分割和分片。而我們找到了最優解,也就是帕累托前沿。好的,帕累托邊界。而且,由于顏色不同,每一個點都代表着不同的配置。這張影像非常清晰地說明了為什麼我們需要一個可編程架構,使其盡可能地具有同質可替代性。因為工作負載在整個邊界上變化非常劇烈。
看,在頂部,我們有專家并行8,批次大小為3000,去聚集關閉,Dynamo關閉。在中間,專家并行64,其中26%用于上下文,因此Dynamo開啟,上下文占用26%,其餘74%未使用。批次大小為64,一個使用專家并行64,另一個使用專家并行4。然後在底部,我們有張量并行16與專家并行4,批次大小為2,上下文占用1%。計算機的配置在整個範圍内都在發生變化。
然後,就會發生這種情況。這是一個輸入序列長度的例子,它是一種比較通用的測試用例。這是一種您可以相對輕松地進行基準測試的測試用例。輸入為1000個标記,輸出為2000個。
請注意,我們之前向您展示了一個演示,其中輸出非常簡單,為9000,對吧,8000。所以很明顯,這并不能僅代表那一次對話。而這一次更具有代表性。這就是目标所在,即構建面向下一代工作負載的下一代計算機。
這是一個推理模型的示例。在這個推理模型中,Blackwell的性能是Hopper的40倍。直接說吧。非常驚人。
你知道,我之前說過,有人确實問過,你知道,我為什麼要那樣說?但我之前說過,一旦Blackwell公司開始批量發貨,你就會發現Hopper產品供過于求,幾乎無人問津。我說的就是這個意思。這是合理的。如果還有人想購買Hopper產品,不用擔心,沒關系。
但是…… 我是首席收入破壞者。我的銷售人員會說,哦,不,别那樣說。霍珀在某些情況下表現良好。這是我所能對霍珀做的最好評價了。
你在某些情況下也表現良好,但情況不多。如果我必須采取行動,這就是我的觀點。
當技術發展如此迅速,工作量如此巨大,并且你們正在建造這些類似工廠的東西時,我們真的希望你們投資于正确的版本。
為了便于理解,這就是一座100兆瓦工廠的樣子。基于Hoppers公司的方案,您擁有45,000個衝壓模具、1400個機架,每秒可生產3億個代币。
以下是Blackwell公司的方案。您擁有86個……我們并非試圖減少您的購買量。我們的銷售人員說,Jensen,你正在減少他們的購買量,但這是更好的方案。
總之,您購買越多,節省越多。事實上,情況比這還要好。現在,你購買得越多,賺取的就越多。
總之,請記住,一切都在人工智能工廠的背景下進行,一切現在都處于人工智能工廠的語境之中。
雖然我們談論芯片,但你總是要從規模化開始。全面規模化。你能将什麼最大限度地規模化?
我現在想向你展示人工智能工廠是什麼樣的,但人工智能工廠非常復雜。我剛才只給你舉了一個機架的例子,它擁有60萬個部件,重達3000磅。現在,你必須把它與許多其他部件連接起來。因此,我們開始構建我們所說的每個數據中心的數字孿生。在構建數據中心之前,你必須構建一個數字孿生。
讓我們來看一看這個。這簡直令人難以置信地美麗。
世界各國都在競相建設最先進的大規模人工智能工廠。建設一座人工智能千兆工廠是一項非凡的工程壯舉,需要來自供應商、建築師、承包商和工程師的數萬名工人來建造、運輸和組裝近50億個組件和超過20萬英裡的光纖,幾乎相當于地球到月球的距離。
英偉達Omniverse人工智能工廠數字孿生藍圖使我們能夠在物理建設開始之前設計和優化這些人工智能工廠。
在此,英偉達工程師利用藍圖規劃一座千兆瓦人工智能工廠,整合了最新英偉達DGX超級計算集群的三維和布局數據,以及來自Vertip和施耐德電氣的先進電力和冷卻系統,并通過英偉達AIR(一個用于模拟網絡邏輯、布局和協定的框架)進行了拓撲優化。
這項工作傳統上是在各個孤立的部門進行的。Omniverse藍圖使我們的工程團隊能夠并行協同工作,讓我們能夠探索各種配置以最大限度地降低總擁有成本(TCO)并提高電力使用效率。
英偉達利用由CUDA和Omniverse庫加速的Cadence Reality數字孿生技術模拟空氣和液體冷卻系統,并使用施耐德電氣的eTap應用程式模拟電力模塊的效率和可靠性。實時模拟使我們能夠在幾秒鍾内完成迭代并運行大型假設場景,而無需耗費數小時。
我們使用數字孿生技術向眾多團隊和供應商傳達指令,從而減少執行錯誤并加快部署時間。在規劃改造或更新時,我們可以輕松地測試和模拟成本和停機時間,确保人工智能工廠具有未來發展潛力。
這是第一次有人在構建數據中心時會認為:"哇,這太漂亮了!"
目前我們正全面生產Blackwell系列產品。全球各地的電腦公司都在大規模地生產這些令人難以置信的機器。我非常高興也很感激大家為過渡到這個新的架構而付出的努力。
在今年下半年,我們将輕松過渡到更新版。因此,我們将推出Blackwell Ultra MB-Link 72。
如您所知,它的處理能力提升了1.5倍。它具有新的注意力指令。其内存提升至原來的1.5倍。
所有這些内存可用于諸如KB緩存之類的用途。網絡帶寬也提升至原來的兩倍。因此,現在我們擁有相同的架構,将能夠平滑過渡。這被稱為Blackwell Ultra,将于今年下半年推出。
所有公司都表示"下一個"是有原因的。事實上,這正是我希望得到的回應。原因是我們正在建設人工智能工廠和人工智能基礎設施,這需要多年的規劃。這不像購買一台筆記型電腦那樣簡單,也不是可随意支配的支出。
這是我們必須規劃的支出,包括土地和電力供應,以及資本支出,并組建工程團隊。我們必須提前一兩年,甚至兩三年進行規劃。這就是為什麼我們會提前兩三年向您展示我們的路線圖的原因,這樣我們就可以避免在五月份給您帶來意外。
經過多年的規劃,下一個階段,也就是一年之後,是以一位天文學家的名字命名的。她的孫輩們也在場。她的名字是維拉·魯賓。她發現了暗物質。維拉·魯賓令人難以置信,因為其CPU是全新的,性能是Grace的兩倍,内存更大,帶寬更高。
然而,它只是一個只有50瓦的小型CPU,這确實令人難以置信。而且,魯賓系統使用了全新的GPU,CX9,全新的網絡智能網卡(NIC),NVLink 6,全新的NVLink互聯技術,以及新型的内存HBM4。總體而言,除了底盤之外,其他一切都是全新的。
通過這種方式,我們可以在一個方向上承擔很大的風險,而不會危及與基礎設施相關的許多其他方面。因此,Vera Rubin,NVLink 144,将于明年下半年推出。
現在,我犯了一個錯誤,所以,我只需要你們做出這個調整:Blackwell實際上是一個Blackwell芯片中的兩個GPU。我們稱單個芯片為GPU是錯誤的,原因是這會打亂所有NVLink的命名法等等。
因此,展望未來,無需返回Blackwell進行修復,當我說NVLink 144時,它僅僅意味着它連接到144個GPU,并且每一個GPU都是一個GPU芯片,并且它可以組裝在某個封裝中,其組裝方式可能會随時變化。所以,每個GPU芯片就是一個GPU。每個NVLink都連接到GPU。
因此,Vera Rubin,NVLink 144,這就為下半年,以及次年我們稱之為Rubin Ultra的產品奠定了基礎。所以,Vera Rubin Ultra。這是Vera Rubin,Rubin Ultra,27的後半部分。它采用NVLink 576,實現了極大規模的擴展。每個機架的功率為600千瓦,由250萬個部件組成。
而且,顯然,還有大量的GPU,并且所有的一切都乘以X因子進行了提升。所以,浮點運算次數增加了14倍,達到15億億次浮點運算(15 exaflops)。正如我之前提到的,現在是15億億次浮點運算,而非1億億次浮點運算,實現了規模的擴大。
并且其内存達到了300,大概是4.6PB(拍字節)。所以,帶寬規模提升到了每秒4600TB(太字節)。我指的不是聚合帶寬,我指的是規模提升的帶寬。當然,還有全新的NVLink交換機和CX9。
請注意,共有16個站點,每個封裝包含4個GPU,采用極高速的NVLink互聯。現在,讓我們來了解一下它的規模。這就是它的樣子。
現在,這将會很有趣。所以,您現在正在全力提升Grace Blackwell的性能。我并非想把它比作筆記型電腦,但這就是它的樣子。這就是Grace Blackwell的形态。魯本的形态也是如此。ISO維度。
因此,換句話說,在進行橫向擴展之前,必須先進行縱向擴展。在進行橫向擴展之前,需要先進行縱向擴展。然後,在那之後,我們将利用令人驚嘆的技術進行橫向擴展。所以,首先進行縱向擴展。這讓您了解我們前進的速度,這是縱向擴展的浮點運算次數。這是縱向擴展的浮點運算次數。Hopper的性能是基準的1倍,Blackwell是68倍,Rubin是900倍。規模化擴展Flop。
然後,如果我将其轉換為,本質上是您的總擁有成本(TCO),即功率在上,每部門功率在下,下面是曲線下方的面積,也就是曲線下的正方形,它基本上是浮點運算次數乘以帶寬。所以,衡量您的AI工廠是否取得進展的一個非常簡單的直覺檢驗方法是,用瓦特數除以那些數字。您可以看到,Rubin将大幅降低成本。這就是英偉達的路線圖,非常簡短。一年一次,像鍾表一樣精确。一年一次。
我們如何進行規模化擴展?我們引入了,我們正在準備進行橫向擴展。那是規模擴展,使用了NVLink技術。我們的規模擴展網絡是InfiniBand和Spectrum X。
大多數人都很驚訝我們進入了以太網領網域。我們決定使用以太網的原因是,如果我們能夠幫助以太網達到InfiniBand的性能,擁有InfiniBand的特性,那麼網絡本身将更容易被所有人使用和管理。因此,我們決定投資Spectrum,我們稱之為Spectrum X,并将擁塞控制、極低延遲和作為我們計算結構一部分的少量軟體的特性融入其中。結果,我們使Spectrum X的性能極其出色。
我們使用Spectrum X構建了有史以來最大的單一GPU集群,作為一個巨大的集群。這就是Colossus(巨型計算機系統)。還有許多其他的例子。Spectrum X無疑對我們來說是一個巨大的成功。我非常期待的一個領網域是,最大的企業網絡公司将采用Spectrum X并将其集成到其產品線中,以便幫助全球企業成為人工智能公司。
我們在CX7上擁有10萬個用戶。現在CX8即将推出,CX9也即将推出。在Rubin任職期間,我們希望将GPU數量擴展到數十萬個。現在,将GPU擴展到數十萬個面臨的挑戰在于擴展連接。擴展連接使用的是銅纜。我們應該盡可能地使用銅纜。這大約是一到兩米左右的距離。這提供了令人難以置信的良好連接性、非常高的可靠性、非常好的能源效率以及非常低的成本。
因此,我們在擴展中盡可能多地使用銅纜。然而,在橫向擴展場景下,數據中心如今已如同體育場般巨大,我們需要一種更長距離運行的解決方案。這就是矽光子學發揮作用的地方。矽光子學的挑戰在于其收發器功耗巨大。從電信号到光信号的轉換需要經過串行-并行轉換器(SerDes)、收發器以及多個串行-并行轉換器。
好,讓我們把它投影到螢幕上,這樣我可以向大家展示我正在讨論的内容。好的,首先,我們宣布英偉達首個采用共封裝光子系統的方案。它是全球首個1.6太比特每秒的共封裝光學器件(CPO)。它基于一種名為微環諧振器調制器(MRM)的技術。并且它完全采用我們與台積電(TSMC)合作已久,令人難以置信的工藝技術構建而成。我們與龐大的技術提供商生态系統合作,共同發明了即将向您展示的技術。這真的是一項令人難以置信的技術,極其令人難以置信的技術。
我們之所以決定投資微環諧振器調制器(MRM),是為了利用MRM令人難以置信的密度和功耗優勢,其密度和功耗比用于電信的馬赫曾德爾幹涉儀(Moxander)更好,後者用于電信中數據中心之間的通信。甚至在我們使用的收發器中,我們也使用馬赫曾德爾幹涉儀(Moxander),因為到目前為止,密度要求并不高。
所以,如果您看看這些收發器,這是一個收發器的例子。這是一個插頭,功率是30瓦,大量購買價格是1000美元。此側為電源接口,此側為光纖接口。光信号通過黃色接口輸入。您将此插頭插入交換機。其中包含收發器、激光器,并采用名為Moxander的技術。
我們使用它将數據從GPU傳輸到交換機,再到下一個交換機。然後是下一個交換機,再下一個交換機,例如連接到GPU。因此,如果我們有10萬個GPU,我們這邊就會有10萬個這樣的組件,然後是另外10萬個組件,用于連接交換機與交換機。然後在另一側,我将其歸因于另一個網卡(NIC)。
如果我們有25萬個GPU,我們将增加一層交換機。因此,每個GPU,所有25萬個GPU,每個GPU将有六個收發器,每個GPU将有六個這樣的插頭。這六個插頭每個GPU将增加180瓦的功耗,每個GPU 180瓦,每個GPU 6000美元的成本。所以問題是,我們如何将規模擴大到數百萬個GPU?因為如果我們有100萬個GPU乘以6,那就是600萬個收發器乘以30瓦,也就是1.8億瓦的收發器功耗。它們沒有進行任何計算,只是移動信号。
問題在于,我們如何,我們能夠如何負擔得起,正如我之前提到的,能源是我們最重要的商品。最終一切事物都與能源相關,因此這将通過減少180兆瓦的電力來限制我們的收入和客戶的收入。這是我們所做的令人驚奇的事情。我們發明了世界上第一台微鏡MRM,這就是它的樣子。
那裡有一個小的波導,您可以在波導上看到,它通向一個環,該環產生共振,并控制波導在繞行時的反射率,從而限制和調制能量,即通過的光量。它通過吸收光來關閉它,或者讓它通過。它将這種直接的連續激光束轉換為1和0。這就是奇迹。
然後,這項技術——光子集成電路——與電子集成電路堆疊在一起,然後與一堆微透鏡堆疊在一起,再與稱為光纖陣列的東西堆疊在一起。這些部件都是使用台積電的這項技術(他們稱之為COOP)制造的,并使用3D COAS技術進行封裝,并與所有這些技術提供商(我之前剛剛展示過它們的名字)合作,最終将其轉變為這台令人難以置信的機器。那麼讓我們來看一下這段視頻。
這簡直是一項技術奇迹。它們變成了這些交換機,我們的 InfiniBand 交換機,矽芯片運行狀況極佳。今年下半年我們将交付矽光交換機,明年下半年我們将交付 Spectrum X。
得益于 MRM 的選擇,得益于我們在過去五年中承擔的令人難以置信的技術風險,我們申請了數百項專利,并将技術授權給我們的合作夥伴,以便我們都能制造它們,現在我們能夠将矽光子技術與共封裝選項相結合,無需收發器,光纖直接連接到我們的交換機,基數為 512。這就是 512 個端口。任何其他方法都根本無法做到這一點。
因此,這使我們能夠擴展到這些擁有數十萬甚至數百萬個 GPU 的系統。其益處,您可以想象一下,令人難以置信。在數據中心,我們可以節省數千萬瓦的電力。假設是十兆瓦,或者說六十兆瓦。六兆瓦相當于十個Rubin Ultra機架。六十兆瓦的電力相當可觀。我們現在可以将一百個Rubin Ultra機架的電力部署到Rubin系統中。
我們的路線圖是:每年進行一次架構更新,每兩年進行一次整體架構更新,每年推出一條新的產品線,實現X因素的提升。我們嘗試逐步承擔矽片、網絡或系統機箱的風險,以便在追求這些令人難以置信的技術時,能夠推動行業向前發展。薇拉·魯賓,我非常感謝她的孫輩們來到這裡。這是我們認可她并為她所做出的傑出工作致敬的機會。我們下一代產品将以費曼命名。
接下來是英偉達的路線圖。讓我來和您談談企業計算,這非常重要。
為了将人工智能帶入全球企業,我們首先需要轉向英偉達的不同部門。高斯散點圖的美妙之處。
為了将人工智能帶入企業,讓我們退一步,提醒自己這一點。請記住,人工智能和機器學習已經徹底重塑了整個計算堆棧。
處理器不同了,作業系統不同了,頂層的應用程式也不同了。應用程式的運行方式不同,編排方式不同,執行方式也均不同。
舉一個例子,您訪問數據的方式将與過去 fundamentally 不同。未來,我們不會再精确地檢索所需數據,然後閱讀并嘗試理解它,而是會像使用Perplexity那樣進行操作。我們不再那樣檢索信息,而是直接向Perplexity提出我的問題,提問,然後它會給出答案。
未來,企業IT也将采用這種方式運作。
我們将擁有作為數字勞動力一部分的AI代理。全球有數十億知識型員工,未來可能會有100億數字員工與我們并肩工作。未來,全球3000萬軟體工程師中的100%都将借助AI輔助工具。
我對此深信不疑。到今年年底,英偉達100%的軟體工程師都将借助AI輔助工具。因此,人工智能代理将無處不在。它們的運行方式、企業的運行方式以及我們的運行方式都将發生根本性的改變。
所以我們需要新一代的計算機。這才是個人電腦應有的樣子:20 petaflops(千萬億次浮點運算),令人難以置信。72個CPU核心,芯片間接口,高帶寬内存(HBM),此外,還有一些PCI Express插槽用于您的GeForce顯卡。這叫做DGX Station。
DGX Spark和DGX Station将由所有原始設備制造商(OEM)提供,包括惠普、戴爾、聯想、華碩。它将面向全球的數據科學家和研究人員生產。這是人工智能時代的計算機,這就是計算機應該的樣子,這也是未來計算機的運行方式。
我們現在為企業提供了一整套產品線。我們提供從小型機到工作站、伺服器,再到超級計算機的各類產品。這些產品将由我們所有的合作夥伴提供。我們還将徹底革新其餘的計算架構。
請記住,計算具有三大支柱,其一是計算本身,而你們正在見證它的發展。其二是網絡,正如我之前提到的,Spectrum X 将面向全球企業,構建一個人工智能網絡。第三是存儲。存儲必須徹底重新設計,它将不再是基于檢索的存儲系統,而是一個基于語義的存儲系統。因此,該存儲系統必須持續不斷地将信息嵌入到後台。它接收原始數據,将其嵌入到知識中,然後當您訪問它時,您無需檢索它,而只需與它進行互動。你可以向它提問,也可以給它提出問題。
其中一個例子是Box公司的Aaron,他甚至将其上傳到雲端,并與我們合作将其上傳到雲端。它基本上是一個超級智能的存儲系統。未來,每個企業都将擁有這樣的系統。這就是未來的企業存儲。
我們正在與整個存儲行業合作,他們都是非常棒的合作夥伴,包括DDN、戴爾、惠普企業、日立、IBM、NetApp、Nutanix、Pure Storage、Vast和Weka。基本上,全球整個存儲行業都将提供這一技術棧。首次,您的存儲系統将實現GPU加速。戴爾将提供全系列的英偉達企業級IT人工智能基礎設施系統以及在其上運行的所有軟體。因此,您可以看到我們正在徹底變革全球企業。
我們今天還宣布了這款令人難以置信的模型,每個人都可以運行。此前我向您展示了R1,一個推理模型。我将它與Llama 3(一個非推理模型)進行了比較。很明顯,R1要聰明得多。但我們還可以做得更好,我們可以使其成為任何公司都可用的企業級產品。現在它完全開源,是我們稱之為NIMS的系統的一部分。
您可以下載它,可以在任何地方運行它。您可以在DGX Spark上運行它。您可以在DGX Station上運行它。您可以在原始設備制造商(OEM)生產的任何伺服器上運行它。您可以在雲端運行它。您可将其集成到您的任何自主智能(Agentic AI)框架中。我們正與世界各地的公司合作。
我将快速浏覽這些内容,請仔細觀看。我想感謝一些在座的優秀合作夥伴。
埃森哲,朱莉·斯威特和她的團隊正在構建他們的AI工廠和AI框架。Amdocs,全球最大的電信軟體公司。AT&T公司,John Stanky及其團隊正在構建一個AT&T人工智能系統,一個具有自主代理能力的系統。Larry Fink和貝萊德團隊正在構建他們的系統。未來,Anyrood公司不僅會招聘ASIC設計人員,還會招聘大量來自Anyrood Cadence的數字ASIC設計人員來幫助我們設計芯片。因此,Cadence公司正在構建其人工智能框架。
正如您所看到的,在每一個系統中,都集成了NVIDIA模型、NVIDIA NIMS和NVIDIA庫。因此,您可以将其在本地、雲端或任何雲平台上運行。Capital One,一家在技術應用方面最為先進的金融服務公司,廣泛使用了NVIDIA的技術。德勤公司,Jason及其團隊。ENY公司,Janet及其團隊。納斯達克公司,Dina及其團隊。将英偉達技術集成到他們的AI框架中。然後是克裡斯蒂安和他在SAP的團隊。比爾·麥克德莫特和他在ServiceNow的團隊。
首先,這是一個主題演講,其第一張幻燈片就花了30分鍾。然後所有其他幻燈片也都花了30分鍾。接下來,我們換個地方吧。我們來談談機器人技術。
機器人時代已經到來。機器人能夠與物理世界互動并執行數字信息無法完成的任務,這是它們的優勢所在。我們非常清楚地知道,世界正面臨着嚴重的勞動力短缺。到本十年末,全世界至少将短缺5000萬名工人。
我們非常樂意支付每位工人5萬美元的年薪以吸引他們來工作。我們可能不得不每年支付機器人5萬美元的"薪水"以使其投入工作。因此,這将是一個非常龐大的產業。各類機器人系統層出不窮。您的基礎設施将實現機器人化。倉庫和工廠中将部署數十億個攝像頭。全球約有1000萬到2000萬家工廠。正如我之前提到的,每輛汽車實際上都是一台機器人。現在,我們正在建造通用機器人。讓我向您展示我們是如何做到的。
所有移動的物體都将實現自主化。物理人工智能将賦能各類機器人,應用于各行各業。三台英偉達制造的計算機支持機器人人工智能的持續循環模拟、訓練、測試和真實世界經驗反饋。機器人訓練需要海量數據。互聯網規模的數據提供了常識和推理能力,但機器人還需要行動和控制數據,而這些數據的獲取成本很高。
利用基于英偉達Omniverse和Cosmos構建的藍圖,開發者可以生成海量多樣化的合成數據,用于訓練機器人的策略。
首先,在Omniverse中,開發者根據不同的領網域、機器人和任務,整合真實世界的傳感器數據或演示數據。然後利用Omniverse對Cosmos進行條件處理,将原始采集數據擴增為海量逼真且多樣化的數據。開發者使用Isaac Lab利用增強的數據集對機器人策略進行後期訓練。并通過模仿學習克隆行為,或通過試錯法以及強化學習AI反饋,讓機器人學習新技能。實驗室練習與真實世界有所不同。新策略需要進行現場測試。開發者使用Omniverse進行軟體和硬體在環測試,在具有真實世界環境動态、領網域随機化、物理反饋和高保真傳感器模拟的數字孿生體中模拟策略。
真實世界的操作需要多個機器人協同工作。Mega,一個Omniverse藍圖,允許開發者大規模測試經過後期訓練的機器人策略集群。在此,富士康在一個虛拟的英偉達Blackwell生產工廠中測試異構機器人。當機器人大腦執行其任務時,它們通過傳感器模拟感知其行動的結果,然後規劃下一個行動。Mega 允許開發者測試許多機器人策略,使機器人能夠作為一個系統工作,無論是空間推理、導航、移動性還是靈巧性方面。
令人驚奇的事物誕生于模拟之中。今天,我們推出 NVIDIA Isaac Groot N1。Groot N1 是一個用于人形機器人的通才基礎模型。它建立在合成數據生成和模拟學習的基礎之上。Groot N1 采用了一種雙系統架構,用于快速和慢速思考,其靈感來自于人類認知處理的原理。慢速思考系統允許機器人感知和推理其環境和指令,并規劃正确的行動。快速思考系統将計劃轉化為精确且連續的機器人動作。Groot N1 的泛化能力使機器人能夠輕松地操縱常見物體并協同執行多步驟序列。通過完整的合成數據生成和機器人學習流程,人形機器人開發者可以對Groot N1進行跨多種形态、任務和環境的後期訓練。
全世界各個行業的開發者都在使用英偉達的三款計算機來構建下一代具身人工智能。物理人工智能和機器人技術發展迅速。每個人都應該關注這一領網域。這很可能成為所有行業中規模最大的一個。其核心在于,我們面臨着同樣的挑戰。正如我之前提到的,我們關注三個方面。這些問題具有系統性。
首先,如何解決數據問題?如何以及在哪裡創建訓練人工智能所需的數據?其次,模型架構是什麼?第三,縮放損失是什麼?我們如何擴展數據、計算能力或兩者兼顧,從而使人工智能越來越智能?我們該如何進行擴展?這兩個基本問題同樣存在于機器人領網域。在機器人領網域,我們創建了一個名為Omniverse的系統,它是我們用于物理人工智能的作業系統。長期以來,你們都聽我談論過Omniverse。
我們向其中添加了兩項技術。今天,我将向你們展示兩件事。其一,是為了讓我們能夠擴展具有生成能力和能夠理解物理世界的生成模型的AI。我們稱之為Cosmos。利用Omniverse來調節Cosmos,并利用Cosmos生成無限數量的環境,使我們能夠創建扎實可靠的數據。這些數據扎實可靠,受我們控制,同時又具有系統性的無限性。正如您所見,在Omniverse中,我們使用糖果色來舉例說明我們如何完美地控制場景中的機器人,而Cosmos可以創建所有這些虛拟環境。
第二點,正如我們之前所讨論的,當今語言模型令人難以置信的擴展能力之一是強化學習,以及可驗證的獎勵。問題是,機器人技術的可驗證獎勵是什麼?正如我們非常清楚的那樣,那就是物理定律。可驗證的物理獎勵。因此,我們需要一個令人難以置信的物理引擎。
嗯,大多數物理引擎的開發都有各種各樣的原因,可能是為了大型機械設備而設計,也可能是為了虛拟世界、電子遊戲等等而設計。但我們需要一個專為精細、剛性和軟體設計的物理引擎。該引擎的設計目标是能夠訓練觸覺反饋、精細動作技能和執行器控制。我們需要它能夠進行GPU加速,以便這些虛拟世界能夠以超線性時間、超實時的方式運行,并以極快的速度訓練這些AI模型。我們還需要它與全球機器人專家都在使用的框架——MuJoCo——和諧地集成。
所以今天我們要宣布一些真正特别的東西。這是三家公司的合作成果,分别是DeepMind、迪士尼研究和英偉達,我們将其命名為Newton。讓我們來看看Newton,謝謝。
你覺得新的物理引擎怎麼樣?你喜歡它,是嗎?是的,我敢打賭。我知道。觸覺反饋、剛體、柔體、仿真、超實時。你能想象剛才你所看到的一切都是實時仿真嗎?未來我們将以此方式訓練機器人。
順便說一下,藍色機器人内部有兩台計算機,兩台英偉達顯卡。看你多聰明。是的,你很聰明。
嘿,藍色機器人,聽着。我們把它帶回家怎麼樣?我們結束這場主題演講吧。該吃午飯了。你準備好了嗎?我們把它結束掉吧。我們還有一個公告。你表現得很好。
就站在這裡。好的,很好。
我們還有另一個令人振奮的消息。我告訴過你們,我們的機器人技術取得了巨大進展。今天,我們宣布Groot N1将開源。我想感謝各位的光臨。
讓我們總結一下。感謝各位參加GTC大會。我們讨論了幾個方面。
第一,Blackwell已全面投產,而且發展勢頭令人難以置信。客戶需求非常旺盛。這是有充分理由的。因為人工智能正處于一個拐點,由于推理型人工智能和代理型人工智能系統的訓練,我們需要進行的人工智能計算量大幅增加。
第二,配備Dynamo的Blackwell NVLink 72的AI工廠性能是Hopper的40倍。随着人工智能的擴展,推理将在未來十年成為最重要的工作負載之一。
第三,我們已為您制定了年度路線圖,以便您規劃您的AI基礎設施。然後,我們正在建設兩到三個AI基礎設施,分别面向雲端的AI基礎設施、面向企業的AI基礎設施以及面向機器人的AI基礎設施。
我們還有一個驚喜為您準備。
感謝大家。感謝所有使這段視頻成為可能的合作夥伴。感謝所有使這段視頻成為可能的各位。祝GTC大會圓滿成功。謝謝。