今天小編分享的互聯網經驗:大模型+機器人,發展到什麼階段了?,歡迎閲讀。
本文整理自險峰主題沙龍《AI浪潮下:機器人領網域新機遇》,主持:鄧卓兵,嘉賓:楊健勃、邵天蘭、弭寶瞳、李宇浩、許華旸、曾祥永、謝思為、董豪,原文标題:《現實與夢想:聊聊AI與機器人》,頭圖來自:視覺中國
一、大模型+機器人發展到了什麼階段?如何看待未來的趨勢?
嘉賓A:首先,大模型+機器人還處于非常早的技術探索期,一個很明顯的特征就是技術路線還沒開始收斂。
比如深度學習,2012年它剛登場時,和今天大模型一樣驚豔,直接把影像識别準确率提升到了90%多,2015年又出現了Alpha GO,直到2018、19年,深度學習才逐漸收斂,最直觀的反映就是高引論文開始沒那麼多了。
因為早期大家還在嘗試不同路線,到後面慢慢形成共識,彼此的東西越做越像,模型結構上也就不會再有大的質變。目前大模型還遠沒到這個階段,微軟谷歌英偉達,彼此之間甚至連任務定義還都不一樣。
第二是算力算法的進步速度。舉個例子,2012年時,你用電腦跑一個5億參數的模型(在今天看起來都屬于小模型),動辄也要跑半個小時;但現在你用最常見的因特爾CPU,跑5億參數只需要零點幾秒,甚至不需要挂AI芯片,也幾乎沒有成本。
所以,我們今天看大模型創業,需要多少個GPU,一算賬要好多錢,就覺得這件事幹不了,但10年之後再看,這些可能都不是問題。現在英偉達等巨頭都在算力方面發力,對此我還是比較有信心的。
第三是大模型+機器人還遠未形成固定的產品形态。
我們看人類歷史,機械的進步=控制力的進步:比如第一次工業革命,誕生了氣缸這樣的基礎組件;到第二次工業革命,有了基礎控制和自動化,人類開始能夠通過機械操控機械;到計算機革命時代,有了PLC(可編程控制器),開始用電腦控制機械,再後來,我們用3D視覺AI控制機械,到現在用大模型控制機械。
可以看到,每個時代之間不是替代關系,而是補充關系:不是説有了計算機,機械控制就沒用了,而是通過計算機對機械控制賦能,讓機械有了更強的能力,由此誕生出了更多的產品形态。
大模型也是一樣,機器人進化和人類進化很類似:首先,機器人要能站得穩,能走直線,不會摔倒——對應到人腦,就是小腦部分要解決的問題;後來慢慢發展出了語音識别、影像識别,這時已經對應到了大腦中某個特定區網域;到現在大模型出來之後,相當于進化到了前額葉的部分,AI也開始能具備一些"基本智力"。
所以,未來我們比較看好AI的三個方向:
1、根據常識處理異常:比如説自動駕駛,現在AI已經可以做到識别障礙物,但是如果路邊有人舉個牌,説前方橋斷請繞行,AI能不能明白這些字的含義?再比如路上看到交警向你打手勢,AI能不能根據常識,知道自己要靠邊停車?
2、高層次抽象任務:比如説我和機器人説,"請把這個房間收拾一下",再比如在倉庫場景中説,"請按清單打包發貨",這些都屬于高層次抽象任務——它不是一個單獨的指令,而是要向下拆解成很多子任務和子指令。
3、主動感知:比如我讓AI從冰箱裏拿瓶水,打開冰箱後如果沒看見水,機器就會停在這一步,但如果是人就知道再翻一下,看看水是不是放在最裏面了?
以上種種這些,過去的AI還都做不到,但大模型很可能會實現。舉個例子,現在微軟使用GPT的技術,已經可以做到簡單的抽象任務,比如你和機器人説"把飯熱一下",它知道要去找微波爐。
換句話説,現在已經可以通過語言模型,讓機器人在熱飯和微波爐之間建立聯系——AI知道要找到微波爐,打開,把飯放進去。
包括谷歌、英偉達也都開始嘗試,在大語言模型上加入跨模态和機器人操作,這方面網上的視頻資料很多,也非常震撼,大家感興趣可以找來看看。
二、大模型為機器人帶來了哪些通用能力?有什麼是值得我們憧憬的?
險峰:過去機器人更像一種專用設備,各種能力要依賴于工程師寫代碼,但大模型出現後,AI出現了泛化能力,GPT已經成功颠覆傳統軟體行業,那我們該如何憧憬大模型對機器人帶來的影響?
嘉賓B:機器人雖然帶了個"人"字,但它依然還是一個效率提升的工具,既然是工具就要分場景、分功能,比如天上用的和地下用的,室内用的和室外用的機器人肯定不一樣。
所以,我認為很難出現一個可供所有機器人使用的統一大模型。更可能是不同專業公司,根據不同場景,搭建出一個個垂直大模型,再與機器人做深入的結合。
嘉賓C:我覺得帶來的改變主要有三個方向:
第一是效率提升,比如高空擦玻璃,這個行業過去三五年最大的變化,是慢慢把高空工人替換成了機器人,因此效率提高了3-6倍,同時還收集了大量工藝參數,但這些參數還是要靠人做數據分析,如果可以通過大模型進行泛化,效率還會進一步提升。
第二是場景感知。舉個例子,一塊玻璃有沒有洗幹淨,過去很難判斷,因為户外場景下,光線環境非常復雜,不管是雷達、超聲都不好使,只能靠人為判定,如果大模型可以讓機器有了人的感知能力,自主判斷一塊玻璃是否達到了物業驗收标準,就能進一步提效。
第三是產品設計。過去要做一款機器人產品,第一步先要訪談大量客户,梳理需求,形成產品洞見,一個產品成敗50%取決于產品定義的方向選擇,大家如果創過業應該都知道,寫PRMID非常耗時,但現在可以借助大模型實現創新,比如把一部分工作交給GPT去解決。
嘉賓D:我們是做2C服務類機器人的,其實站在客户的視角,他不管你具體做的什麼機器人,他的認知就你這東西能不能替代我一個人工?能不能夠減員增效?但坦白講現在的機器人很難實現1對1替代。
機器人拆開就四件事:感知、決策、控制、互動,現在這四件事機器都沒辦法做得像人,核心原因還是智能化水平不夠。一年前我們還認為,沒有任何方法能解決這些問題,但突然GPT出現了,現在我們也在嘗試用它開發新的產品線。
但我認為至少5年内,還很難出現人形的大模型機器人,從我掌握的知識背景來看,挑戰有點過大,如果大家對大模型機器人的憧憬是變形金剛或者高達,那可能還需要等很多年。
嘉賓E:大模型首先要有大數據,比如訓練ChatGPT,用的是網上的文本文字,但是訓練機器人,往往要用3D數據,網上沒有現成的,只能靠人工采集,效率很低,所以之前我們看到一些機器人公司,采了半年的數據,訓練的模型還是只能在局部環境裏使用。
未來,大模型可能會不一樣,比如可以在虛拟環境裏訓練AI,然後更高效地匹配真實世界;或者直接利用2D數據訓練3D機器人,比如剛才主持人提到的,給機器人看人類搬東西的視頻,慢慢機器人也學會了搬東西,這兩種方法未來都有可能成功。
對于通用大模型機器人,我還是比較樂觀的。我們説最簡單的智能機器人其實是無人機,能跟随你拍照,但和周圍環境還沒有太多互動;後面出現了自動駕駛,AI開始和地面環境做互動;再後來有了機械臂,開始和真實世界直接物理接觸。
整個過程中,難度其實是不斷上升的,所以我覺得等自動駕駛完全成熟以後,通用型機器人就會慢慢出現,因為整條技術路線是相通的,可以慢慢遷移過去。
三、大模型給機器人互動方式帶來哪些變化?
險峰:剛才大家談了機器人如何感知、理解和執行任務,如果有一天大模型機器人具備了很超前的智力,在互動方式上會怎麼變化?
嘉賓F:用户對于家用機器人可能會有期待,希望互動更順暢、更智能,但我們做工業機器人的還沒有迫切需求。工業場景中,語音互動一直也不是主流,大家還是更習慣用操作杆和遙控器;所以未來,VR+手勢可能會是比較好的方向。
嘉賓G:我們做服務機器人的,互動方案已經很結構化了,就是給客户提供一個用起來很爽的pad——但我們也發現,客户仍然會不滿足,因為服務行業普遍教育程度不是很高,他們不希望有任何學習成本,所以我認為,基于自然語言互動的服務型機器人一定會有需求。
嘉賓H:互動可以抽成兩類,一是機器與人的互動,二是機器與環境的互動。
人的互動,其實不只是和機器人,應該叫智能硬體+大模型,比如小愛或者小度,你告訴它把房間燈關了,有時不一定能真的關上,但有了大模型,它可以通過光線感知到燈到底有沒有關。
另一個是多語言能力,比如之前只能和它用中文交流,現在可以多種語言切換,直接賣給海外客户,也不需要重建新的數據集。
還有就是陪伴和情感需求,特别是海外用户,比如英國一家做人形機器人的公司叫AMECA,大家可以搜搜它們的產品,已經有點恐怖谷效應了,未來機器人接入大模型後,對于需要情感陪伴的人可能是個好消息,尤其是老年人。
(圖:AMECA機器人)
至于機器與環境的互動,我覺得核心競争力還是要收集到每個細分場景的小模型。
舉個例子,特斯拉要用人形機器人造車,就先要收集每個工藝環節的數據,比如把一塊擋風玻璃安在車身上,機器人具體需要調動哪些"關節"和"肌肉",如何判斷安裝的位置在哪,這是一整套非常專精的小模型。
現在國内也有公司在做類似的事情,用大模型底座調度生成自己的小模型,目前這條路看起來是走得通的。
嘉賓J:我認為人機互動方式越簡單越好,以前我也用過很多智能家居,但是用到最後我寧願不用,還是普通開關更方便。
其實最好的互動就是沒有互動,比如我拿着一個大箱子往前走,機器人能知道要幫我開門,或者接過來幫我拿;我吃完飯走了,機器人知道應該要收拾餐具,類似于這些對人類意圖的識别,如果大模型機器人具備了高級智力,或許更值得期待。
四、大模型能否解決機器人數據收集難、生成難的問題?
險峰:剛才很多嘉賓都提到,機器人訓練數據"收集難、生成難",大家如何看大模型對機器人數據的影響?會有哪些新的變化?
嘉賓K:目前我們的做法還是:前段靠仿真,中段靠真實作業效果,最後由人來做評估修正;我覺得不只是我們,現在很多工業場景裏機器人的工作方式,在工藝層面已經和用人工完全不一樣了,很難單純地遷移過來,不是説看看人類的錄像就能解決的。
嘉賓L:我覺得做通用人形機器人,收集數據可能沒有那麼難,我們内部讨論過,包括OpenAI的CTO也講過類似的邏輯,就是人身上能收集到的數據密度其實挺高的,比如你給1萬個人帶上傳感器,跑上一年所有數據都有了。
這件事本身不難,主要還是商業倫理的問題,但我覺得還是錢的問題,比如你給10萬人裝傳感器,一人一年給10萬美金,總會有人願意,這個數據量也完全夠用了。
嘉賓M:我展開講講數據收集,目前主要有三條技術路線:
一是收集動作庫:它比較适合于生產流水線——每個工位上的動作不會有太大變化,但需要多次重復的任務;它的優點是只需要訓練一次,後面機器人就不需要做大調整,但缺點是非常耗時。
比如PaLM-E,效果确實非常好,但為了訓練它,谷歌用了13台機器人,收集了17個月數據,一共收集了5620億個參數,而這還只是家用機器人,只需要一個底盤+一條機械臂+攝像頭,如果是用在工業流水線上,采集的時間和數據量都是要翻倍的。
(圖:谷歌的PaLM-E機器人)
第二條路線叫遙操作,也就是特斯拉正在做的:給人戴上VR和觸覺傳感器,把整套傳感數據投射到機器人身上,直接告訴機器人如何像人一樣運動。
比如騰訊做的四足機器狗,研究人員在一條金毛身上裝了一套的動捕設備,再将收集到的數據抽象壓縮到神經網絡模型中;以前的機器狗動作極其僵硬,但用了金毛數據後的機器狗就變得非常靈活。
第三條路徑叫模仿學習,就是人直接在機器人面前演示一遍,機器人就學會了。比如家政或者保潔工作,我打開洗衣機把東西放進去,只需要教一遍,不需要采集數據,也不需要動捕。
這個事情可能大家聽起來比較科幻,但像CMU、MIT都已經發過不少論文,盡管還沒有看到這個技術直接用在哪個場景上,但如果未來能實現,會是非常颠覆性的事情。
總之,目前每條技術路徑上,都有很多公司或高校在嘗試,最後很可能是幾條路線混合在一起,發展出一套最适配的AI+機器人解決方案。所以這段時間,我們一直在密切關注各大科研機構的論文,還有特斯拉、DeepMind做了哪些新工作,有哪些是可以被國内公司借鑑學習的。
嘉賓N:讨論這個話題之前,我們首先要搞清楚,收集數據的目的是什麼?比如讓一只金毛跑來跑去,當然可以收集到數據,但這個數據只能讓機械狗動作更自然,而不能讓機械狗學會做某件事情。
如果要機器學習的話,那對數據質量的要求就高多了,這個時候又有一個大問題,就是數據采集的成本是很高的,但不同型号機器人之間的數據并不通用。
舉個例子,你好不容易訓練好一個型号的機器人,但你的硬體總要更新迭代,假設到下一個型号裏,機器人要換一種新的電機,那之前的數據等于就全廢了,所以我們最近也在跟斯坦福合作,研究怎麼讓收集的數據和機器人型号是無關的,無關就可以讓數據永遠有效。
此外,遙操作的另一個問題是ROI太低了,工廠場景+固定工位還可以,但要實現通用基本不可能。所以,現在行業裏大部分人還是采用虛拟訓練的策略,因為虛拟環境下,物體可以随便生成,成本也非常低。
舉個例子,比如疊衣服,先讓機器在虛拟環境裏疊各種形狀的衣服,成功率可以到90%,然後放到真實環境裏疊,成功率可能直接就降到5%了,但這已經足夠了。
因為有了5%的成功率,AI就可以自己采集成功的軌迹數據,只要有5%作為起步,明天就能到10%,後天50%,再過幾天100%,這樣采集的ROI就特别好,不用人去幹預,所以本質上,數據是用算力換的,而不是用人工換的。
五、大模型+機器人會有哪些應用場景?創業門檻有多高?
嘉賓P:我個人比較看好工業實踐中應用,我們説自動化做了這麼多年,到今天還是冰山一角,還有非常大的發展空間,原因是過去自動化的非标程度太高了。
舉個例子,假設你是個自動化專業的學生,大學4年出來,可能連每種導軌、電機的型号都還認不全,不是你學得不好,是種類實在太多了。而這麼多硬體組合在一起,會導致一個問題,就是讓自動化過于依賴規模生產和工藝穩定。
比如説薯片,這個品類的自動化水平非常高,因為這麼多年來,薯片除了口味,從外觀到包材幾乎沒有變化;在過去,也只有這種大規模+長時間的連續生產,才能誕生出高自動化水平的設備。
但問題是,絕大部分行業的迭代周期遠沒有薯片長。
比如説汽車,以前汽車是機器人大規模應用的代表,這個行業的特點就是高投入+長周期,一款車光調試產線就要一年半,然後可以持續賣10年;但現在行業越來越卷,生產周期越來越快,一款車一共可能只能賣一年半,就要推新產品上市。
過去中國機器人行業十年漲了十幾倍,但這期間汽車行業一直是下行的,此消彼長,傳統主機廠那套高投入的玩法注定是無法持續的,這就需要更高柔性的自動化。
馬斯克意識到了這點,所以他才認為人形機器人是終極解決方案——類似于把擰螺絲這種工作高度标準化、智能化,然後快速部署,這裏用完了可以馬上到别的地方用。
不過,開發人形機器人的難度也很大,并不是短時間内可以做出來的,但是這個過程中會產生很多技術,比如移動、抓取、視覺感知等等,結合大模型會有很多新技術的產出,由此也會誕生出新的產品,創造新的價值。
而當有一天,這些技術最終組合在一起,那時候人類可能就要擔心一下了。
最後講講我對這件事的判斷,首先大模型+機器人是非常重大的機會,如果你能做出很好的產品,後面的競争者再進來會特别難受,產業形成閉環後門檻也會非常高。
但同時,這個行業對于人才、技術和資金的需求也非常恐怖,參與者要麼是不差錢的科技巨頭(比如谷歌微軟),要麼是頭部的創業公司,當然還有傳統工業巨頭和高校研究所。
總之這個事情和以前的創業不太一樣:互聯網時代做個APP,可能幾個人就夠了,所以那時候我們能聽到很多個人英雄主義的故事,但現在小公司可能電費都付不起。
從這個角度説,大模型+機器人是一個人類最高科技的集大成者,創業者要跑出來非常困難,當然,一旦成功,它能產生的價值也是非常巨大的,會把人類的自動化程度帶到一個全新的高度。
六、大模型機器人距離落地還有哪些障礙?
險峰:剛才大家談的都是大模型的積極影響,那麼大模型會給機器人帶來哪些額外問題?這件事距離最終落地還有哪些潛在的障礙?
嘉賓Q:首先大模型不可能部署在端側,至少3-5年内絕無可能,所以現在大家都是端+雲的模式,那對我們來説,第一個難點就是端+雲的結構怎麼搭?我覺得比較好的解決方案,是在端側做一個動态的小模型,可以實現一些基礎的現場互動,大模型的部分放在雲端,當然這是個技術問題。
由此帶來的第二個問題就是信号丢失,一旦沒信号,機器人就只剩端側智能了,我都接收不到信号我怎麼控制它?只能保證最基礎的讓它不要撞到人;另外信号延遲也是問題,人機做互動延最怕延遲,所以我覺得,機器人通用大模型部署絕對不是一家公司的事,需要大家一起建設整個網絡,這個模型我們自己肯定做不出來,但如果meta做出來我們馬上會用。
嘉賓R:我覺得最大的障礙還是安全問題。把數據上傳到雲端大模型,相信每家企業都會有顧慮,這其中的知識產權和數據安全都要打問号,所以我們最近也在嘗試,使用一些開源的小模型,疊加一些行業數據,打造一個垂直領網域的專用模型。
這樣的好處是,如果客户對數據安全要求特别高,我們可以直接把小模型部署在它指定的伺服器上,只有如此,才能徹底消除客户對數據安全的顧慮。
另外就是算力的瓶頸,作為一家機器人公司,我們不可能投入那麼多的顯卡資源,我們最近也積極買卡,但要等好幾個月才能交貨。
嘉賓S:我覺得有三個問題,一是執行速度:比如谷歌的PaLM-E,可以從抽屜裏拿東西,但那個視頻是加了4倍速的,換言之,現實裏機器人的動作只有視頻速度的1/4,這個速度在大部分場景都還不能替代人。
第二是執行成功率:谷歌説他們用了大模型之後,把執行成功率從60%提升到75%,甚至80%,作為家庭機器人已經夠用了,但要注意的是,這已經是當前大模型+機器人的最佳水平了,如果要用到更高精度的場景,比如半導體儀器的操作,或者給老人喂飯,要精确對準老人的嘴,後面還有很長的路要走。
第三是數據,谷歌PaLM-E主打家用場景,可以随便收集數據,特斯拉有自己的工廠,也是想收就收,但如果未來一家機器人公司,想要進入一家車廠收集數據,它可以收集到什麼程度?工人會不會配合?這個事情現在是無解的。
以我的了解,目前這些數據很難被帶出工廠,所以就看哪家機器人公司可以率先突破,比如和客户建立比較好的信任關系,但這又帶來一個問題,就是A車廠的數據能不能拿給B車廠用?這些都是需要探索的。
嘉賓T:我也關注安全問題,但主要是指物理安全。開源的語言大模型,頂多是有偏見,它并不會傷害你,但如果大模型與機器人做結合,一些錯誤的理解可能會導致意外的連鎖反應,比如你讓機器人用烤箱做西餐,它卻做了中餐,結果打開燃氣意外失火等等。
現在很多人都在研究,如何在自然語言大模型中實現價值觀的對齊,這是一個研究熱點,但是在機器人領網域還沒有人研究,當然可能是技術還沒發展到這個階段,也可能是要出現風險後才會有人去研究。
七、機器人公司的壁壘會如何變化?
險峰:目前人形機器人距離我們還比較遠,但從長遠趨勢看,機器人的智能化水平一直在穩步提升。
特别是大模型出現後,機器人的構建邏輯、互動邏輯全都變了,未來機器人公司的壁壘、評價标準會如何變化?各位怎麼看?
嘉賓V:長遠來看,一家大模型+機器人公司好不好,一個評估指标就是看它能不能突破新場景。
這麼多年來,機器人要不是天上飛的,要不是地下跑的,已經被開發得差不多了,現在有了大模型,那一些以前機器人解決不了的場景,現在是不是可以被解決?另一方面,随着一些新行業崛起,比如光伏、锂電池這些產業鏈上,能否誕生機器人的新機會?這些是我們比較關注的。
此外,大模型可能帶來一些機器人形态和硬體的改變,比如電子皮膚,也就是觸覺傳感器可能會是個方向;還有軟體機器人,把機器人做成硅膠材質或者折紙結構的,可以自由伸縮,類似這樣一些"人無我有"的技術,也會是很好的壁壘。
嘉賓W:過去大家講SaaS,軟體即服務,如果機器人能實現規模化應用,下一個就會迎來RaaS時代(機器人即服務)。機器人本身只是一個載體,核心是為客户提供服務,這裏面就會有兩個壁壘:
一是把機器人本體做得穩定、可靠,執行成功率要足夠高,同時成本足夠低;二是規模服務化的能力,比如有成千上萬台機器人同時在跑,後面你每增加一台新機器,如何保證服務質量不下降?我覺得企業先要做到這兩點,才能談怎麼與大模型做結合。
嘉賓X:機器人本質還是制造業,規模化生產和服務能力是必需的,除了這些基本功以外,大模型技術最颠覆的還是為發明創造提供一種新工具,比如現在很多高校老師都在借助GPT搞科研,簡而言之,大模型是一種可以支撐發明的發明。
所以在機器人領網域,大模型也可以幫助企業形成一些行業内的場景庫、任務庫、數據庫和工藝庫,這些會是企業構建垂直模型的核心壁壘,一旦你的產品體驗比對手好3-5倍,客户就不會再給他們機會了。
嘉賓Y:現在人形機器人非常火,我本人也是馬斯克的粉絲,但我堅決不認為人形機器人會成為主流。
為什麼機器一定要做成人的樣子?我自己就是產線工程師出身,從能耗角度講,流水線是最好的方式,輪子的能量利用效率比用腿高10倍以上,你做了一個人形機器人,放棄了傳送帶,改用腿或者四足去搬東西,這是一種技術的倒退,非常可笑。
再比如你做個做飯機器人,它一定要長成人的樣子,在灶台前拿個鏟子炒菜嗎?一家餐廳本來要招10個人,現在説不用了,咱們搞10個人形機器人吧,未來會是這樣嗎?一定不是,到時候餐廳一定是對整個後廚做全自動化改造,讓人不用進入後廚,就可以完成出餐;這背後的核心,是你如何理解這個場景中的任務,以及怎樣設計流程效率最高。
所以,最終絕大多數的機器人一定不是人形,對于某些工作,通用能力本身可能就是一種負擔,因為客户付不起額外的成本——我只需要的一兩種功能,你非要給我一個完整的人,那我為什麼要為我用不到的功能買單?
嘉賓Z:人形确實是最難的機器人形态,雙臂+雙足+全身關節控制,要最後落地是個很長遠的事情,但我覺得現在投資人看好人形的邏輯是:誰能做好人形,誰就有可能做好其他的機器人形态。
一家公司,只要團隊足夠優質,在它向着人形去努力的過程中,中間可能就有一些東西會跑出來,比如在中途突然發現一路岔路,沿着它最終做出一個好產品,這件事在互聯網時代已經反復印證了。
另一個思路,也是馬斯克的觀點,就是世間有沒有一種形态,是可以适應所有人類場景?完成所有人類工作的?
确實,現在很多很多标準化工序可以傳送帶解決,但要想實現通用性,可能最适應人類社會形态的還是人本身;所以,我還是比較笃信人形機器人的,未來能替代人的,最終還是一個長得像人的東西。