國内規模高達200億，AI 新浪潮真的是“具身智能”嗎？

今天小編分享的科技經驗：國内規模高達200億，AI 新浪潮真的是“具身智能”嗎？，歡迎閱讀。

英偉達 CEO 黃仁勳（Jensen Huang）曾預言："AI 的下一個浪潮将是具身智能（Embodied AI）。"

繼 AI 聊天機器人、大語言模型之後，具身智能作為 AI 領網域的一個新的發展方向正受到越來越多的關注。

" 具身智能是一種知行合一的 AI，也就是在‘知’的層面上，智能體要具有感知、推理、決策的能力。在‘行’的層面，智能體可以通過身體的動作和表情，與環境以及其他智能體進行互動。這是一種既要有大腦，還要有軀體的智能體。" 上海人形機器人制造業創新中心首席科學家江磊表示。

江磊強調，" 具身智能的最佳物理形态就是人形機器人。"

近期舉行的 2024 全球開發者先鋒大會多場分論壇上，數位專家、學者和先鋒開發者分享了對具身智能以及人形機器人產業創新的思考。

人形機器人是 " 具身智能 " 的承載形态

所謂 " 具身智能 "，就是指機器人或智能系統能夠通過感知器和執行器與其所處的環境進行實時互動，通常具備感知、認知、決策和行動的能力，能夠根據環境的變化做出相應的調整。

與傳統機器人相比，具身智能對環境的感知和響應能力相對更出色。而且，具身智能不僅能接收外部信息，還能理解這些信息，并作出适當的反應。

在此之前，華人計算機科學家、斯坦福大學教授李飛飛，上海交通大學教授盧策吾等人都曾提出 " 具身智能 " 這一概念技術。

随着 2022 年底發布的 ChatGPT 風靡全球，在 ITF World 2023 半導體大會上，黃仁勳表示，AI 的下一個浪潮将是 " 具身智能 "，即能理解、推理、并與物理世界互動的智能系統，引發全球關注。

在全球科技競賽的新賽道上，人形機器人正成為各國競相布局的焦點。借助政策驅動和資本助力，這一領網域的創新和突破正在加速。2024 年以來，人形機器人的商用化應用示範也正成為行業發展重點，然而商用化進程中仍面臨挑戰，這既是考驗，也是激發創新潛能的契機。

" 人形機器人是具身智能最完美、最佳的承載形态，可能也是通用機器人的終極形态。" 清華大學交叉信息研究院助理教授、星動紀元創始人兼 CEO 陳建宇表示。

陳建宇稱，" 不管是工業場景還是我們的生活場景，目前大部分的事情還是由人來做。所以我們急需這樣一個更通用的機器人來幫助我們完成很多的任務。"

在陳建宇看來，人形機器人有三大優勢：

一是能最大限度地适配人類環境。整個人類的基礎設施、外界環境就是完全為人類建造的，這是不能改變的，因為人始終要生活在這個環境裡。" 如果我們要做一個機器人，它要通用的在人類的生活環境裡面生活，那它一定只有以人的形态才能去最大限度地适應。" 陳建宇說。

第二，從技術的角度來講，未來人形機器人這樣的具身智能肯定是以數據驅動，數據是很重要的一個環節。對于人形機器人來說它的數據可得性更高，因為它有跟人類更接近的形态，可以更加方便地從人的行為中來獲取數據。

第三，人形機器人也更能滿足人類情感與審美的要求，因為它有跟人更相似的形态。

江磊也同樣認為，人形機器人就是具身智能的最佳物理形态。

據公開數據顯示，目前國内人形機器人的產業規模已經達到 200 億，遠遠超過所有人的預想。

2023 年以來，很多原本做人形機器人的公司也在增加具身智能的新概念。" 我們給了它一個新的名詞叫通用人形機器人。目前在中國通用人形機器人整機的商業公司已經超過了 25 家。這個數字每天還在增長，可以說我國已經成為全球人形機器人產業的一個熱門聚集地。" 江磊表示。

為何具身智能在 AI 領網域越來越受到關注？上海人工智能實驗室研究員龐江淼表示，之前大家更關注計算機視覺、自然語言處理，現在具身智能突然受到了很大關注，是因為它的底層每一個模塊的技術都已經趨近成熟了。" 在這樣的情況下，我們能夠基于強化學習的方式去解決一些傳統 NPC 解決不了的控制問題。智能機器人是一個系統工程，那當這個系統工程的每個子模塊的技術都有了躍進，那它本身就會成為下一個時代的目标。" 龐江淼說。

復旦大學計算機科學技術學院研究員葉廣楠指出，目前大模型的發展是機器人領網域發展的一個核心原動力。因為大模型有大量的數據，有強大的并行計算的能力，大模型實際上給機器人的核心内部注入了真實需要的 " 靈魂 "。大模型會對機器人各個階段的發展起到很大的促進的作用。

人形機器人進化要素在于數據、算法和本體

談及未來人形機器人創新發展的技術關鍵，陳建宇指出，對于大語言模型發展主要的進化要素是數據、算法，而對于機器人來說有一些不同，除了數據和算法都需要從機器人的角度有一定的改進以外，還要加上本體。

本體和數據、算法的關系非常緊密。陳建宇認為，對于機器人的數據來說，它一定是需要從本體上面產生的，不管是現實世界的本體還是虛拟世界的本體。同時，算法在目前也跟本體有一定的耦合性，現在還不能說完全能解耦開去做這件事情，所以是三位一體聯合去迭代的過程。

" 人形機器人本體部分的關鍵技術點在于關節和靈巧手，比如腿部的關節和需求怎麼做，靈巧手要有多少自由度，觸覺怎麼做，怎麼樣平衡精度等等。此外還有一個很有意思的問題，就是人形機器人的手腿協同。我們發現如果還沿用原來的四足架構的話，當我們想讓（機器人的）手做一些訓練集沒有做過的事情，就會非常影響腿部的穩定性。所以我們提出了‘去中心化’的訓練架構，使得手和腿在必要的時候進行一定程度的解耦，但是需要的時候它又可以做到比較好的耦合。" 陳建宇說。

江磊則從硬體、智能和場景三個方面來分析人形機器人在未來如何落地。

江磊坦言，" 首先是硬體，硬體還是集中在一定要打造一款低成本的硬體，才能指望它進入千家萬戶，思路和以往也不同，這一輪低成本硬體我們更希望通過新制造、新傳感、新材料，使得機器人所有的復雜基建系統，尤其減速器、驅動器、電機、傳感器和芯片真正進入智能階段；其次是如何實現智能，‘具身智能’給了我們一個答案，具身智能 + 核心零部件會成為這個新賽道的新方向，比如特斯拉擎天柱 Optimus 人形機器人，僅使用視覺和關鍵位置編碼器，就可以在空間精準定位自己的肢體，這可以減少對高性能傳感器和減速器的依賴，有利于降本。（人形機器人）通過臂、手、眼的協同實現操作，從而降低成本。這也是我們希望核心零部件廠商關注的一個方向；最後是場景，未來具身智能應該是通過場景去打造一個規模化的數據集，然後把這個規模化數據集整理以後發給具身大模型。"

在江磊看來，具身智能未來可大致分為三種實現路徑：一是非端到端的路徑，采用語言大模型、視覺大模型，加載機器人就可以實現控制；二是半端到端，類似谷歌 DeepMind 發布的機器人大模型 RT-2；三是完全端到端，江磊更看好完全端到端的路徑，

"（因為）這是一種理想的技術途徑，而且只有完全端到端能把軟體和硬體進行解耦，讓穩定應用成為可能。" 江磊稱。

終極階段的具身智能将擁有自主意識

未來 " 具身智能 " 的終極目标是什麼？

上海人工智能實驗室研究員龐江淼認為，最終目标還是它能為人服務，以人為中心，實實在在的提高一些生產力。" 其實落到實際的產品迭代，作為一個科研從業人員，我們總是在研發各種各樣的前沿技術，但是對于產品來說，我覺得還是應該以產品設計為導向，就是什麼事是真正有用的，然後我們再想辦法怎麼去解決這些技術。"

陳建宇則從人形機器人的本體和智能性上作出展望。

"第一個階段是達到具身智能的 ChatGPT 時刻。它有相對應的很好的硬體本體，人形機器人的觸覺和身體關節都做的非常好非常成熟，成本也能接受。而在智能性層面，達到一個類似 ChatGPT 的狀态，你教它幹一個什麼事，它對物理世界會有嘗試，并且它有通用的決策、行動還有控制的能力，然後能做各種各樣的事情。并且也具備比較強的學習的能力。

而第二個階段就是具有自主意識。像現在，ChatGPT 是沒有靈魂的，你不會認為它真的有自己的思想，能幫助你回答比較難的一些問題。但如果它真的有了自主意識，它就是一個新的物種了，那麼我們就需要考慮該怎麼處理它與人類的相處，它需不需要有一個身份，是不是要跟我們人同等的去合作、競争等。總的來講，我覺得還是要非常謹慎地去看 AGI。"

美國伊利諾伊大學香槟分校碩士，帕西尼感知科技聯合創始人、COO 聶相如認為，當機器人實現了具身智能的終極能力時，樂觀主義者可能會覺得這不僅是一個效率的極致提升，還意味着人類與機器人可以有靈魂交往了。但從技術層面來看，這确實會在倫理道德上產生非常多需要把控的問題。像之前下圍棋的機器人 AlphaGo，它自我迭代的速度非常強悍，在極短時間内就擁有了非常強大的能力，把人類圍棋這個領網域拿下，完虐世界超一流的選手。

" 總之，我們當然希望這一步會到來，但機器人實現這一步需要什麼樣的技術路線、布局，一些前沿技術在論文階段、實驗室階段怎麼沉澱下來，這個是需要我們大家一起努力的地方。" 聶相如表示。

（本文首發钛媒體 App，作者｜任穎文，編輯｜林志佳）