大模型+機器人，發展到什麼階段了？

今天小編分享的互聯網經驗：大模型+機器人，發展到什麼階段了？，歡迎閱讀。

本文整理自險峰主題沙龍《AI浪潮下：機器人領網域新機遇》，主持：鄧卓兵，嘉賓：楊健勃、邵天蘭、弭寶瞳、李宇浩、許華旸、曾祥永、謝思為、董豪，原文标題：《現實與夢想：聊聊AI與機器人》，頭圖來自：視覺中國

一、大模型+機器人發展到了什麼階段？如何看待未來的趨勢？

嘉賓A：首先，大模型+機器人還處于非常早的技術探索期，一個很明顯的特征就是技術路線還沒開始收斂。

比如深度學習，2012年它剛登場時，和今天大模型一樣驚豔，直接把影像識别準确率提升到了90%多，2015年又出現了Alpha GO，直到2018、19年，深度學習才逐漸收斂，最直觀的反映就是高引論文開始沒那麼多了。

因為早期大家還在嘗試不同路線，到後面慢慢形成共識，彼此的東西越做越像，模型結構上也就不會再有大的質變。目前大模型還遠沒到這個階段，微軟谷歌英偉達，彼此之間甚至連任務定義還都不一樣。

第二是算力算法的進步速度。舉個例子，2012年時，你用電腦跑一個5億參數的模型（在今天看起來都屬于小模型），動辄也要跑半個小時；但現在你用最常見的因特爾CPU，跑5億參數只需要零點幾秒，甚至不需要挂AI芯片，也幾乎沒有成本。

所以，我們今天看大模型創業，需要多少個GPU，一算賬要好多錢，就覺得這件事幹不了，但10年之後再看，這些可能都不是問題。現在英偉達等巨頭都在算力方面發力，對此我還是比較有信心的。

第三是大模型+機器人還遠未形成固定的產品形态。

我們看人類歷史，機械的進步=控制力的進步：比如第一次工業革命，誕生了氣缸這樣的基礎組件；到第二次工業革命，有了基礎控制和自動化，人類開始能夠通過機械操控機械；到計算機革命時代，有了PLC（可編程控制器），開始用電腦控制機械，再後來，我們用3D視覺AI控制機械，到現在用大模型控制機械。

可以看到，每個時代之間不是替代關系，而是補充關系：不是說有了計算機，機械控制就沒用了，而是通過計算機對機械控制賦能，讓機械有了更強的能力，由此誕生出了更多的產品形态。

大模型也是一樣，機器人進化和人類進化很類似：首先，機器人要能站得穩，能走直線，不會摔倒——對應到人腦，就是小腦部分要解決的問題；後來慢慢發展出了語音識别、影像識别，這時已經對應到了大腦中某個特定區網域；到現在大模型出來之後，相當于進化到了前額葉的部分，AI也開始能具備一些"基本智力"。

所以，未來我們比較看好AI的三個方向：

1、根據常識處理異常：比如說自動駕駛，現在AI已經可以做到識别障礙物，但是如果路邊有人舉個牌，說前方橋斷請繞行，AI能不能明白這些字的含義？再比如路上看到交警向你打手勢，AI能不能根據常識，知道自己要靠邊停車？

2、高層次抽象任務：比如說我和機器人說，"請把這個房間收拾一下"，再比如在倉庫場景中說，"請按清單打包發貨"，這些都屬于高層次抽象任務——它不是一個單獨的指令，而是要向下拆解成很多子任務和子指令。

3、主動感知：比如我讓AI從冰箱裡拿瓶水，打開冰箱後如果沒看見水，機器就會停在這一步，但如果是人就知道再翻一下，看看水是不是放在最裡面了？

以上種種這些，過去的AI還都做不到，但大模型很可能會實現。舉個例子，現在微軟使用GPT的技術，已經可以做到簡單的抽象任務，比如你和機器人說"把飯熱一下"，它知道要去找微波爐。

換句話說，現在已經可以通過語言模型，讓機器人在熱飯和微波爐之間建立聯系——AI知道要找到微波爐，打開，把飯放進去。

包括谷歌、英偉達也都開始嘗試，在大語言模型上加入跨模态和機器人操作，這方面網上的視頻資料很多，也非常震撼，大家感興趣可以找來看看。

二、大模型為機器人帶來了哪些通用能力？有什麼是值得我們憧憬的？

險峰：過去機器人更像一種專用設備，各種能力要依賴于工程師寫代碼，但大模型出現後，AI出現了泛化能力，GPT已經成功颠覆傳統軟體行業，那我們該如何憧憬大模型對機器人帶來的影響？

嘉賓B：機器人雖然帶了個"人"字，但它依然還是一個效率提升的工具，既然是工具就要分場景、分功能，比如天上用的和地下用的，室内用的和室外用的機器人肯定不一樣。

所以，我認為很難出現一個可供所有機器人使用的統一大模型。更可能是不同專業公司，根據不同場景，搭建出一個個垂直大模型，再與機器人做深入的結合。

嘉賓C：我覺得帶來的改變主要有三個方向：

第一是效率提升，比如高空擦玻璃，這個行業過去三五年最大的變化，是慢慢把高空工人替換成了機器人，因此效率提高了3-6倍，同時還收集了大量工藝參數，但這些參數還是要靠人做數據分析，如果可以通過大模型進行泛化，效率還會進一步提升。

第二是場景感知。舉個例子，一塊玻璃有沒有洗幹淨，過去很難判斷，因為戶外場景下，光線環境非常復雜，不管是雷達、超聲都不好使，只能靠人為判定，如果大模型可以讓機器有了人的感知能力，自主判斷一塊玻璃是否達到了物業驗收标準，就能進一步提效。

第三是產品設計。過去要做一款機器人產品，第一步先要訪談大量客戶，梳理需求，形成產品洞見，一個產品成敗50%取決于產品定義的方向選擇，大家如果創過業應該都知道，寫PRMID非常耗時，但現在可以借助大模型實現創新，比如把一部分工作交給GPT去解決。

嘉賓D：我們是做2C服務類機器人的，其實站在客戶的視角，他不管你具體做的什麼機器人，他的認知就你這東西能不能替代我一個人工？能不能夠減員增效？但坦白講現在的機器人很難實現1對1替代。

機器人拆開就四件事：感知、決策、控制、互動，現在這四件事機器都沒辦法做得像人，核心原因還是智能化水平不夠。一年前我們還認為，沒有任何方法能解決這些問題，但突然GPT出現了，現在我們也在嘗試用它開發新的產品線。

但我認為至少5年内，還很難出現人形的大模型機器人，從我掌握的知識背景來看，挑戰有點過大，如果大家對大模型機器人的憧憬是變形金剛或者高達，那可能還需要等很多年。

嘉賓E：大模型首先要有大數據，比如訓練ChatGPT，用的是網上的文本文字，但是訓練機器人，往往要用3D數據，網上沒有現成的，只能靠人工采集，效率很低，所以之前我們看到一些機器人公司，采了半年的數據，訓練的模型還是只能在局部環境裡使用。

未來，大模型可能會不一樣，比如可以在虛拟環境裡訓練AI，然後更高效地匹配真實世界；或者直接利用2D數據訓練3D機器人，比如剛才主持人提到的，給機器人看人類搬東西的視頻，慢慢機器人也學會了搬東西，這兩種方法未來都有可能成功。

對于通用大模型機器人，我還是比較樂觀的。我們說最簡單的智能機器人其實是無人機，能跟随你拍照，但和周圍環境還沒有太多互動；後面出現了自動駕駛，AI開始和地面環境做互動；再後來有了機械臂，開始和真實世界直接物理接觸。

整個過程中，難度其實是不斷上升的，所以我覺得等自動駕駛完全成熟以後，通用型機器人就會慢慢出現，因為整條技術路線是相通的，可以慢慢遷移過去。

三、大模型給機器人互動方式帶來哪些變化？

險峰：剛才大家談了機器人如何感知、理解和執行任務，如果有一天大模型機器人具備了很超前的智力，在互動方式上會怎麼變化？

嘉賓F：用戶對于家用機器人可能會有期待，希望互動更順暢、更智能，但我們做工業機器人的還沒有迫切需求。工業場景中，語音互動一直也不是主流，大家還是更習慣用操作杆和遙控器；所以未來，VR+手勢可能會是比較好的方向。

嘉賓G：我們做服務機器人的，互動方案已經很結構化了，就是給客戶提供一個用起來很爽的pad——但我們也發現，客戶仍然會不滿足，因為服務行業普遍教育程度不是很高，他們不希望有任何學習成本，所以我認為，基于自然語言互動的服務型機器人一定會有需求。

嘉賓H：互動可以抽成兩類，一是機器與人的互動，二是機器與環境的互動。

人的互動，其實不只是和機器人，應該叫智能硬體+大模型，比如小愛或者小度，你告訴它把房間燈關了，有時不一定能真的關上，但有了大模型，它可以通過光線感知到燈到底有沒有關。

另一個是多語言能力，比如之前只能和它用中文交流，現在可以多種語言切換，直接賣給海外客戶，也不需要重建新的數據集。

還有就是陪伴和情感需求，特别是海外用戶，比如英國一家做人形機器人的公司叫AMECA，大家可以搜搜它們的產品，已經有點恐怖谷效應了，未來機器人接入大模型後，對于需要情感陪伴的人可能是個好消息，尤其是老年人。

（圖：AMECA機器人）

至于機器與環境的互動，我覺得核心競争力還是要收集到每個細分場景的小模型。

舉個例子，特斯拉要用人形機器人造車，就先要收集每個工藝環節的數據，比如把一塊擋風玻璃安在車身上，機器人具體需要調動哪些"關節"和"肌肉"，如何判斷安裝的位置在哪，這是一整套非常專精的小模型。

現在國内也有公司在做類似的事情，用大模型底座調度生成自己的小模型，目前這條路看起來是走得通的。

嘉賓J：我認為人機互動方式越簡單越好，以前我也用過很多智能家居，但是用到最後我寧願不用，還是普通開關更方便。

其實最好的互動就是沒有互動，比如我拿着一個大箱子往前走，機器人能知道要幫我開門，或者接過來幫我拿；我吃完飯走了，機器人知道應該要收拾餐具，類似于這些對人類意圖的識别，如果大模型機器人具備了高級智力，或許更值得期待。

四、大模型能否解決機器人數據收集難、生成難的問題？

險峰：剛才很多嘉賓都提到，機器人訓練數據"收集難、生成難"，大家如何看大模型對機器人數據的影響？會有哪些新的變化？

嘉賓K：目前我們的做法還是：前段靠仿真，中段靠真實作業效果，最後由人來做評估修正；我覺得不只是我們，現在很多工業場景裡機器人的工作方式，在工藝層面已經和用人工完全不一樣了，很難單純地遷移過來，不是說看看人類的錄像就能解決的。

嘉賓L：我覺得做通用人形機器人，收集數據可能沒有那麼難，我們内部讨論過，包括OpenAI的CTO也講過類似的邏輯，就是人身上能收集到的數據密度其實挺高的，比如你給1萬個人帶上傳感器，跑上一年所有數據都有了。

這件事本身不難，主要還是商業倫理的問題，但我覺得還是錢的問題，比如你給10萬人裝傳感器，一人一年給10萬美金，總會有人願意，這個數據量也完全夠用了。

嘉賓M：我展開講講數據收集，目前主要有三條技術路線：

一是收集動作庫：它比較适合于生產流水線——每個工位上的動作不會有太大變化，但需要多次重復的任務；它的優點是只需要訓練一次，後面機器人就不需要做大調整，但缺點是非常耗時。

比如PaLM-E，效果确實非常好，但為了訓練它，谷歌用了13台機器人，收集了17個月數據，一共收集了5620億個參數，而這還只是家用機器人，只需要一個底盤+一條機械臂+攝像頭，如果是用在工業流水線上，采集的時間和數據量都是要翻倍的。

（圖：谷歌的PaLM-E機器人）

第二條路線叫遙操作，也就是特斯拉正在做的：給人戴上VR和觸覺傳感器，把整套傳感數據投射到機器人身上，直接告訴機器人如何像人一樣運動。

比如騰訊做的四足機器狗，研究人員在一條金毛身上裝了一套的動捕設備，再将收集到的數據抽象壓縮到神經網絡模型中；以前的機器狗動作極其僵硬，但用了金毛數據後的機器狗就變得非常靈活。

第三條路徑叫模仿學習，就是人直接在機器人面前演示一遍，機器人就學會了。比如家政或者保潔工作，我打開洗衣機把東西放進去，只需要教一遍，不需要采集數據，也不需要動捕。

這個事情可能大家聽起來比較科幻，但像CMU、MIT都已經發過不少論文，盡管還沒有看到這個技術直接用在哪個場景上，但如果未來能實現，會是非常颠覆性的事情。

總之，目前每條技術路徑上，都有很多公司或高校在嘗試，最後很可能是幾條路線混合在一起，發展出一套最适配的AI+機器人解決方案。所以這段時間，我們一直在密切關注各大科研機構的論文，還有特斯拉、DeepMind做了哪些新工作，有哪些是可以被國内公司借鑑學習的。

嘉賓N：讨論這個話題之前，我們首先要搞清楚，收集數據的目的是什麼？比如讓一只金毛跑來跑去，當然可以收集到數據，但這個數據只能讓機械狗動作更自然，而不能讓機械狗學會做某件事情。

如果要機器學習的話，那對數據質量的要求就高多了，這個時候又有一個大問題，就是數據采集的成本是很高的，但不同型号機器人之間的數據并不通用。

舉個例子，你好不容易訓練好一個型号的機器人，但你的硬體總要更新迭代，假設到下一個型号裡，機器人要換一種新的電機，那之前的數據等于就全廢了，所以我們最近也在跟斯坦福合作，研究怎麼讓收集的數據和機器人型号是無關的，無關就可以讓數據永遠有效。

此外，遙操作的另一個問題是ROI太低了，工廠場景+固定工位還可以，但要實現通用基本不可能。所以，現在行業裡大部分人還是采用虛拟訓練的策略，因為虛拟環境下，物體可以随便生成，成本也非常低。

舉個例子，比如疊衣服，先讓機器在虛拟環境裡疊各種形狀的衣服，成功率可以到90%，然後放到真實環境裡疊，成功率可能直接就降到5%了，但這已經足夠了。

因為有了5%的成功率，AI就可以自己采集成功的軌迹數據，只要有5%作為起步，明天就能到10%，後天50%，再過幾天100%，這樣采集的ROI就特别好，不用人去幹預，所以本質上，數據是用算力換的，而不是用人工換的。

五、大模型+機器人會有哪些應用場景？創業門檻有多高？

嘉賓P：我個人比較看好工業實踐中應用，我們說自動化做了這麼多年，到今天還是冰山一角，還有非常大的發展空間，原因是過去自動化的非标程度太高了。

舉個例子，假設你是個自動化專業的學生，大學4年出來，可能連每種導軌、電機的型号都還認不全，不是你學得不好，是種類實在太多了。而這麼多硬體組合在一起，會導致一個問題，就是讓自動化過于依賴規模生產和工藝穩定。

比如說薯片，這個品類的自動化水平非常高，因為這麼多年來，薯片除了口味，從外觀到包材幾乎沒有變化；在過去，也只有這種大規模+長時間的連續生產，才能誕生出高自動化水平的設備。

但問題是，絕大部分行業的迭代周期遠沒有薯片長。

比如說汽車，以前汽車是機器人大規模應用的代表，這個行業的特點就是高投入+長周期，一款車光調試產線就要一年半，然後可以持續賣10年；但現在行業越來越卷，生產周期越來越快，一款車一共可能只能賣一年半，就要推新產品上市。

過去中國機器人行業十年漲了十幾倍，但這期間汽車行業一直是下行的，此消彼長，傳統主機廠那套高投入的玩法注定是無法持續的，這就需要更高柔性的自動化。

馬斯克意識到了這點，所以他才認為人形機器人是終極解決方案——類似于把擰螺絲這種工作高度标準化、智能化，然後快速部署，這裡用完了可以馬上到别的地方用。

不過，開發人形機器人的難度也很大，并不是短時間内可以做出來的，但是這個過程中會產生很多技術，比如移動、抓取、視覺感知等等，結合大模型會有很多新技術的產出，由此也會誕生出新的產品，創造新的價值。

而當有一天，這些技術最終組合在一起，那時候人類可能就要擔心一下了。

最後講講我對這件事的判斷，首先大模型+機器人是非常重大的機會，如果你能做出很好的產品，後面的競争者再進來會特别難受，產業形成閉環後門檻也會非常高。

但同時，這個行業對于人才、技術和資金的需求也非常恐怖，參與者要麼是不差錢的科技巨頭（比如谷歌微軟），要麼是頭部的創業公司，當然還有傳統工業巨頭和高校研究所。

總之這個事情和以前的創業不太一樣：互聯網時代做個APP，可能幾個人就夠了，所以那時候我們能聽到很多個人英雄主義的故事，但現在小公司可能電費都付不起。

從這個角度說，大模型+機器人是一個人類最高科技的集大成者，創業者要跑出來非常困難，當然，一旦成功，它能產生的價值也是非常巨大的，會把人類的自動化程度帶到一個全新的高度。

六、大模型機器人距離落地還有哪些障礙？

險峰：剛才大家談的都是大模型的積極影響，那麼大模型會給機器人帶來哪些額外問題？這件事距離最終落地還有哪些潛在的障礙？

嘉賓Q：首先大模型不可能部署在端側，至少3-5年内絕無可能，所以現在大家都是端+雲的模式，那對我們來說，第一個難點就是端+雲的結構怎麼搭？我覺得比較好的解決方案，是在端側做一個動态的小模型，可以實現一些基礎的現場互動，大模型的部分放在雲端，當然這是個技術問題。

由此帶來的第二個問題就是信号丢失，一旦沒信号，機器人就只剩端側智能了，我都接收不到信号我怎麼控制它？只能保證最基礎的讓它不要撞到人；另外信号延遲也是問題，人機做互動延最怕延遲，所以我覺得，機器人通用大模型部署絕對不是一家公司的事，需要大家一起建設整個網絡，這個模型我們自己肯定做不出來，但如果meta做出來我們馬上會用。

嘉賓R：我覺得最大的障礙還是安全問題。把數據上傳到雲端大模型，相信每家企業都會有顧慮，這其中的知識產權和數據安全都要打問号，所以我們最近也在嘗試，使用一些開源的小模型，疊加一些行業數據，打造一個垂直領網域的專用模型。

這樣的好處是，如果客戶對數據安全要求特别高，我們可以直接把小模型部署在它指定的伺服器上，只有如此，才能徹底消除客戶對數據安全的顧慮。

另外就是算力的瓶頸，作為一家機器人公司，我們不可能投入那麼多的顯卡資源，我們最近也積極買卡，但要等好幾個月才能交貨。

嘉賓S：我覺得有三個問題，一是執行速度：比如谷歌的PaLM-E，可以從抽屜裡拿東西，但那個視頻是加了4倍速的，換言之，現實裡機器人的動作只有視頻速度的1/4，這個速度在大部分場景都還不能替代人。

第二是執行成功率：谷歌說他們用了大模型之後，把執行成功率從60%提升到75%，甚至80%，作為家庭機器人已經夠用了，但要注意的是，這已經是當前大模型+機器人的最佳水平了，如果要用到更高精度的場景，比如半導體儀器的操作，或者給老人喂飯，要精确對準老人的嘴，後面還有很長的路要走。

第三是數據，谷歌PaLM-E主打家用場景，可以随便收集數據，特斯拉有自己的工廠，也是想收就收，但如果未來一家機器人公司，想要進入一家車廠收集數據，它可以收集到什麼程度？工人會不會配合？這個事情現在是無解的。

以我的了解，目前這些數據很難被帶出工廠，所以就看哪家機器人公司可以率先突破，比如和客戶建立比較好的信任關系，但這又帶來一個問題，就是A車廠的數據能不能拿給B車廠用？這些都是需要探索的。

嘉賓T：我也關注安全問題，但主要是指物理安全。開源的語言大模型，頂多是有偏見，它并不會傷害你，但如果大模型與機器人做結合，一些錯誤的理解可能會導致意外的連鎖反應，比如你讓機器人用烤箱做西餐，它卻做了中餐，結果打開燃氣意外失火等等。

現在很多人都在研究，如何在自然語言大模型中實現價值觀的對齊，這是一個研究熱點，但是在機器人領網域還沒有人研究，當然可能是技術還沒發展到這個階段，也可能是要出現風險後才會有人去研究。

七、機器人公司的壁壘會如何變化？

險峰：目前人形機器人距離我們還比較遠，但從長遠趨勢看，機器人的智能化水平一直在穩步提升。

特别是大模型出現後，機器人的構建邏輯、互動邏輯全都變了，未來機器人公司的壁壘、評價标準會如何變化？各位怎麼看？

嘉賓V：長遠來看，一家大模型+機器人公司好不好，一個評估指标就是看它能不能突破新場景。

這麼多年來，機器人要不是天上飛的，要不是地下跑的，已經被開發得差不多了，現在有了大模型，那一些以前機器人解決不了的場景，現在是不是可以被解決？另一方面，随着一些新行業崛起，比如光伏、锂電池這些產業鏈上，能否誕生機器人的新機會？這些是我們比較關注的。

此外，大模型可能帶來一些機器人形态和硬體的改變，比如電子皮膚，也就是觸覺傳感器可能會是個方向；還有軟體機器人，把機器人做成矽膠材質或者折紙結構的，可以自由伸縮，類似這樣一些"人無我有"的技術，也會是很好的壁壘。

嘉賓W：過去大家講SaaS，軟體即服務，如果機器人能實現規模化應用，下一個就會迎來RaaS時代（機器人即服務）。機器人本身只是一個載體，核心是為客戶提供服務，這裡面就會有兩個壁壘：

一是把機器人本體做得穩定、可靠，執行成功率要足夠高，同時成本足夠低；二是規模服務化的能力，比如有成千上萬台機器人同時在跑，後面你每增加一台新機器，如何保證服務質量不下降？我覺得企業先要做到這兩點，才能談怎麼與大模型做結合。

嘉賓X：機器人本質還是制造業，規模化生產和服務能力是必需的，除了這些基本功以外，大模型技術最颠覆的還是為發明創造提供一種新工具，比如現在很多高校老師都在借助GPT搞科研，簡而言之，大模型是一種可以支撐發明的發明。

所以在機器人領網域，大模型也可以幫助企業形成一些行業内的場景庫、任務庫、數據庫和工藝庫，這些會是企業構建垂直模型的核心壁壘，一旦你的產品體驗比對手好3-5倍，客戶就不會再給他們機會了。

嘉賓Y：現在人形機器人非常火，我本人也是馬斯克的粉絲，但我堅決不認為人形機器人會成為主流。

為什麼機器一定要做成人的樣子？我自己就是產線工程師出身，從能耗角度講，流水線是最好的方式，輪子的能量利用效率比用腿高10倍以上，你做了一個人形機器人，放棄了傳送帶，改用腿或者四足去搬東西，這是一種技術的倒退，非常可笑。

再比如你做個做飯機器人，它一定要長成人的樣子，在灶台前拿個鏟子炒菜嗎？一家餐廳本來要招10個人，現在說不用了，咱們搞10個人形機器人吧，未來會是這樣嗎？一定不是，到時候餐廳一定是對整個後廚做全自動化改造，讓人不用進入後廚，就可以完成出餐；這背後的核心，是你如何理解這個場景中的任務，以及怎樣設計流程效率最高。

所以，最終絕大多數的機器人一定不是人形，對于某些工作，通用能力本身可能就是一種負擔，因為客戶付不起額外的成本——我只需要的一兩種功能，你非要給我一個完整的人，那我為什麼要為我用不到的功能買單？

嘉賓Z：人形确實是最難的機器人形态，雙臂+雙足+全身關節控制，要最後落地是個很長遠的事情，但我覺得現在投資人看好人形的邏輯是：誰能做好人形，誰就有可能做好其他的機器人形态。

一家公司，只要團隊足夠優質，在它向着人形去努力的過程中，中間可能就有一些東西會跑出來，比如在中途突然發現一路岔路，沿着它最終做出一個好產品，這件事在互聯網時代已經反復印證了。

另一個思路，也是馬斯克的觀點，就是世間有沒有一種形态，是可以适應所有人類場景？完成所有人類工作的？

确實，現在很多很多标準化工序可以傳送帶解決，但要想實現通用性，可能最适應人類社會形态的還是人本身；所以，我還是比較笃信人形機器人的，未來能替代人的，最終還是一個長得像人的東西。