今天小編分享的互聯網經驗:AI進化關鍵之年,AGI迎來“拐點時刻”?,歡迎閱讀。
文 | 極智 GeeTech
特斯拉 Optimus 機器人完成工廠零件分揀、宇樹機器人在春晚上精準完成舞蹈動作、比亞迪拉開智能駕駛全民普及序幕……這些标志性事件宣告了人工智能正在步入技術進化的關鍵之年。
近日,阿裡巴巴集團 CEO 吳泳銘宣布,未來三年,阿裡将投入超過 3800 億元,用于建設雲和 AI 基礎設施,總額超過去十年總和。這也創下中國民營企業在雲和 AI 基礎設施建設領網域有史以來最大規模投資紀錄。據 IDC 預測,到 2030 年,AI 将為全球經濟貢獻 19.9 萬億美元,推動 2030 年全球 GDP 增長 3.5%。
從工業革命到信息革命,每一次技術躍遷都伴随基礎設施的颠覆。如果說 AGI 是一場星辰大海的遠征,那麼 AI 基礎設施就是通往目的地的 " 陽關大道 "。蒸汽機車需要鐵路網、電力需要電網、互聯網需要光纖與基站。AI 的爆發,正在呼喚一張全新的基礎設施網絡——它不僅是數據傳輸的管道,更是連接實體與智能、協調全局與局部、平衡效率與安全的 " 神經中樞 ",是一個能讓機器智能與物理世界同頻共振的新型網絡。
在這個網絡下,機器人、自動駕駛汽車、低空飛行器等各類智能體通過自主決策與協同控制,完成了一次又一次實時對話和人機互動,通往 AGI 新世界的大門也将由此開啟。
AGI 必然路徑,從感知 AI 到物理 AI
語音助手能準确識别方言指令、手機攝像頭能自動捕捉最燦爛的笑容,這些感知 AI 的傑作構建了現代社會的數字感官。它們如同隐形的眼睛與耳朵,将光信号、聲波轉化為可計算的數據流。
但當自動駕駛汽車面對突發的道路塌陷,或服務機器人在凌亂的客廳裡找不到充電接口時,單純的環境感知能力立刻暴露出致命短板。
波士頓動力的人形機器人 Atlas 在平衡木上完成空翻時展現的不僅僅是動作精準度,更揭示了物理智能的本質:重力加速度計算需要與關節扭矩控制同步,攝像頭捕捉的視覺信息必須即時轉化為肌肉記憶般的機械響應。這種感知與行動的毫秒級閉環,遠比 AlphaGo 戰勝人類冠軍更能體現智能的本質特征。
大模型的持續進化,如同蝴蝶振翅般颠覆了人們對人工智能的傳統理解。從初次嘗試新架構到發現新的普适定律,從能力泛化到模态無縫融合,這些突破性進展正在不斷刷新機器智能的邊界。
大模型實現了感知與認知能力的全面更新,讓機器具備了更加細膩豐富的理解能力。與此同時,人工智能正在向着另一個關鍵維度挺進——對真實物理世界的模拟與适應。
從感知到決策再到控制執行,端到端的智能系統正在崛起,機器的适應性和靈活性持續突破,不僅能夠自主感知和推理復雜場景,更能夠主動規劃行動、做出決策,而具身智能、自動駕駛的加速落地,又進一步塑造了機器的物理形态。
作為人工智能發展的初級階段,感知式 AI 關注的是機器對環境的感知能力,使機器能夠通過視覺、聽覺等感官獲取信息,并進行基本的理解和響應。感知式 AI 使機器能夠與外界進行初步互動,為更復雜的智能行為提供了可能性。這一階段的典型應用包括語音識别、影像處理以及推薦系統。
2012 年,一個名為 AlexNet 的神經網絡引爆了 AI 研究界,它的表現遠遠超過所有其他類型的模型,并赢得了當年的 ImageNet 競賽。自那時起,神經網絡開始騰飛。自 ImageNet 以來的 13 年裡,計算機視覺研究者們掌握了物體識别,并轉向影像和視頻生成,為後續生成式 AI 奠定了基礎。
在感知式 AI 的基礎上,生成式 AI 通過進一步發展延伸,形成了機器生成内容的能力。這一階段标志着人工智能不僅能夠理解信息,還能創造文本、影像和音頻等新的内容,被認為是 " 生產力放大器 ",為營銷和創作領網域提供了前所未有的工具和可能性。
今年,DeepSeek 的火爆出圈将生成式 AI 再次推上了風口。不過,DeepSeek 底層邏輯依然是統計機器學習——喂數據、訓練、輸出結果。這意味着生成式 AI 的技術天花板已經清晰可見,甚至因為它的 " 深度思考 " 過程透明化,反而更讓人看清它的本質——一個被訓練出的智能模型,而非真正的智能體。
一個有趣的例子:當被問 "strawberry 有幾個 r" 時,DeepSeek 需要反復思考 50 秒才能給出正确答案。它能解決復雜問題,卻在簡單場景中暴露局限性。這是因為其依賴統計相關性,而不是因果邏輯。就像超市發現 " 尿布和啤酒銷量正相關 ",AI 能發現規律,卻無法理解背後是 " 爸爸們順手買酒 " 的因果鏈。" 即便強如 OpenAI,也在嘗試反思式推理(如 GPT-4o 的多路徑思考),但本質仍是數據驅動的優化。
近日,Meta 首席 AI 科學家楊立昆(Yann LeCun)在 2025 年人工智能行動峰會上表示,AI 需要理解物理世界,只有在這基礎上,AI 才能真正接近人類智慧。
盡管當前的大模型在諸如通過律師資格考試、解決數學問題等任務上表現出色,但它們無法執行日常生活中的基本任務,如做家務。對于人工智能而言,許多看似簡單的動作,如洗碗或擦桌子,依然是無法解決的復雜問題。這些模型并未真正理解物理世界,只是通過模式識别和數據生成來模拟現象。
為進一步提升 AI 理解真實世界的能力,物理 AI 被提了出來,它使人工智能系統不僅能夠理解信息,還能在物理世界中進行操作,它結合了對物理現象的理解與智能決策能力,使得智能系統能夠靈活應對復雜情況。
物理 AI 賦予具身智能、自動駕駛更強的環境感知、理解和互動能力,使它們能夠更好地理解周圍環境,并根據物理規律做出相應的反應。例如,AI 可以直接控制倉庫中的機器人進行貨物運輸,或是優化自動駕駛汽車的行駛策略。
從感知式 AI、生成式 AI,最終邁向物理 AI,這一演變過程反映了人工智能技術不斷演進的軌迹。每個階段都承襲了前一階段人工智能發展的技術成果,使得機器不僅能夠 " 看 " 和 " 聽 ",還能夠 " 理解 " 和 " 行動 "。這種逐步演進為實現更高級别的通用人工智能(AGI)奠定了基礎,也為各行各業帶來了深遠影響。
AI 與物理智能 " 雙螺旋上升 "
傳統人工智能如同 " 缸中之腦 ",雖能解方程、作詩詞,卻無法真正觸碰現實。物理 AI 的颠覆性在于:它将智能注入物理實體,讓機器具備 " 感知 - 決策 - 執行 " 的閉環能力。從自動駕駛車輛到智能電網,從柔性機器人到分子級制造設備,這些系統不再滿足于 " 理解世界 ",而是執着于 " 改變世界 "。
相比生成式 AI 處理的是一維或二維信息的輸入,如文字、圖片、音頻或視頻,并輸出相同類型的信息,物理 AI 需要從三維、甚至四維(包含時空)的角度理解信息,這與信息智能有本質的不同。
在輸入層面,物理 AI 系統可以從許多工具中獲取輸入,比如攝像頭、慣性傳感器、雷達和激光雷達,處理的是感知和理解世界的數據,包括視覺和觸覺等感官信息,并且能夠直接從傳感器數據中學習和理解環境,讓人工智能從單純的感知、生成,進階到能夠進行推理、規劃與行動。
在輸出層面,物理 AI 生成的是 TSD 數據,即時間(T)序列(S)數據,這種數據可以直接用于控制具身智能,賦予其一個能在現實物理規則下靈活運轉的 " 大腦 "。
此外,生成式 AI 和物理 AI 在產品形态和應用場景也有所不同。生成式 AI 不受時間影響,不需要實時反饋,例如 ChatGPT 中有些信息可能只更新到去年 9 月。而物理 AI 系統必須實時處理輸入信息,需要實時感知和推理環境,以确保具身智能能夠及時響應。
目前,大多數物理 AI 系統還只能處理特定任務或小環境,并且效果參差不齊。落地上,一個目前很火的例子是宇樹科技的四足機器狗,可以爬山涉水,還可以用一連套高難度的體操動作亮相,包括原地旋轉兩周接倒立旋轉三周半,以及一套流暢的托馬斯全旋、側空翻和 360 度跳躍轉體等。
如同大模型革新了生成式 AI 一樣,物理 AI 成為具身智能、自動駕駛等領網域進入新階段的 " 鑰匙 "。
首先,大模型 " 上車 " 難題将得到很好解決。
目前,大模型在汽車領網域的應用主要體現在兩個方面:一是智能座艙,二是自動駕駛。前者跟大模型技術有着天然的契合度,因為當前的智能座艙更側重于娛樂和互動功能,這與大模型的語言處理能力非常相符,難點在于後者。
對于自動駕駛而言,如何在復雜動态的交通環境中實現高效、安全的車輛控制成為一大核心難題。現有的自動駕駛系統普遍缺乏多智能體協作能力、高效決策與解釋能力,在面對復雜交通環境時,難以有效理解周圍交通參與者的行為和意圖。
第二是數據。在自動駕駛領網域,大模型需要 " 喂 " 大量的真實世界數據進行訓練,讓它更拟人。所以如何讓這些數據更好地服務大模型做訓練,這是目前普遍車企面臨的另一個難點。
其次,人形機器人加速邁向 "ChatGPT 時刻 "。
去年,人工智能機器人初創公司 Figure AI 發布 Figure 02 時,就曾引發市場高度關注。Figure 02 在大腦上,集成了 OpenAI 的 GPT-4o 多模态大模型,使其能夠更好地理解和響應復雜指令。
多模态大模型不僅是技術的簡單疊加,而是推動物理 AI 向前發展的重要技術支撐。大模型能力的本質是對信息的壓縮與二次處理,多模态大模型擴大了信息輸入模态,提升了模型能力天花板。
多模态大模型技術路徑是從影像 - 語言模态融合再到三種以上模态的融合。語言模态的訓練賦予了模型邏輯思維能力與信息生成能力;視覺模态的信息流密度較高,也與現實世界更貼切,可以大幅度拓展應用場景,因此成為多模态技術的首選信息載體。在此基礎上,模型可以繼續發展動作、聲音、觸覺等不同模态,以應對更加復雜的場景。
多模态大模型的核心優勢在于卓越的信息融合能力。通過對不同模态數據的同步處理與深度整合,模型能夠挖掘出跨模态信息之間的内在關聯,從而生成更全面、準确且富有洞察力的理解與回應。
例如,在影像描述生成任務中,模型可以結合影像中的視覺元素與相關文本描述,生成精準且流暢的自然語言描述,讓機器不僅能 " 看到 " 影像内容,更能以人類可理解的語言 " 講述 " 其中的故事,因此更能滿足機器在物理世界中廣泛應用的需求。
通往 AGI 的基礎設施路徑
物理 AI 的崛起,正在将人工智能發展推向一個臨界點:我們能否構建一張足夠智慧、堅韌且包容的網絡,既釋放技術的全部潛力,又守護技術的核心價值?這不僅是工程師的挑戰,更是全社會的共同課題。
物理世界的運行法則遠比數字空間殘酷:決策偏差導致的不是程式報錯,而是血淋淋的交通事故;模型推理需要的不是概率優化,而是毫秒級的精準控制。車路雲網絡作為智能體與實體世界實時互動的 AI 網絡,正是打破這層玻璃的關鍵鑰匙,其通過大規模部署路側感知單元、每秒處理海量數據的邊緣計算節點,以及覆蓋城市道路的網絡,将數字智能注入物理世界的毛細血管。
這個龐大網絡的技術内核在于 " 通感算一體化 " 架構的突破。通信光纖如同神經系統傳遞着每輛汽車 0.1 秒内的加速度變化,激光雷達陣列如同視覺神經捕捉着 200 米外行人的步态特征,雲端超算集群則在時空維度編織着城市交通的數字孿生。
當暴雨導致某路口能見度驟降時,路側基站能在百毫秒内完成對車道行駛軌迹的預測,并通過車路雲網絡向 800 米範圍内的車輛發送分級制動指令,賦予自動駕駛車輛實現超越人類反應極限的群體決策能力。
虛實融合的 AI 網絡正在重構技術演進的底層邏輯。車路雲架構将 70% 的感知計算任務轉移至路側設備後,車輛只需保留基礎算力模塊,如同普通駕駛者借助智能交通系統獲得 " 上帝視角 ",相當于用市政設施的群體智能彌補了單車感知的物理局限。
更深層的變革發生在模型和算法層面。數字世界 AI 可以承受 99% 的準确率,但控制刹車系統的模型容錯率必須是六個九。車路雲網絡通過數字孿生技術,将現實路網克隆為可無限試錯的虛拟沙盤。這種虛實閉環的進化機制,讓人工智能在應對電動自行車突然變道時,能像三十年駕齡的老司機般預判軌迹,卻又不受人類駕駛員的情緒幹擾。
站在技術演進的維度觀察,車路雲網絡的價值遠不止于交通效率的提升。它證明了一個更具普适性的範式:當 AI 突破數字世界的邊界,其進化軌迹必然要與物理實體深度融合。
這種融合不是簡單的控制與被控制,而是通過持續的環境互動形成自主演化能力。就像生物神經系統的進化史,從單細胞生物的應激反應到人類大腦的復雜認知,智能的躍升永遠伴随着與真實世界互動維度的拓展。
在車路雲網絡中,車輛不僅僅是信息的接收者,它同時也是信息的生產者。每一輛車的傳感器、攝像頭和其他設備所收集到的數據,都會實時傳輸到雲端。這些數據不僅幫助優化當前車輛的駕駛決策,還會反向影響整個智能交通系統的運行,通過共享信息,多個車輛和交通管理系統可以形成協同感知,從而提升整體道路的安全性和流暢度。
物理 AI 的覺醒,昭示着智能革命的拐點時刻已經到來。當城市化作流動的神經網絡,每個機器人、每輛汽車都可以成為自主決策的智能體。就像 DeepSeek 創始人梁文峰所言:"AI 的未來不在于取代人類,而應該像水電一樣成為基礎設施,讓每個人都能享受到科技帶來的便利。"
實驗室裡的機械臂正在學習預測咖啡杯滑落前的震顫頻率,氣象 AI 系統同步調整着風力發電機的葉片角度。這些看似碎片化的技術突破,實則在編織覆蓋全球的智能協同網絡。當這個網絡達到臨界規模時,或許我們終将理解圖靈在 1950 年提出的那個終極問題:機器能否思考?答案可能藏在機器與物理世界持續對話時產生的電光石火之中。