今天小編分享的科技經驗:手腦并用,AI大模型“補全”機器人,歡迎閱讀。
抓雞蛋、做深蹲 … … 更輕、更穩、更快。
這是特斯拉剛剛發布的人形機器人 Optimus 擎天柱二代,不論從運動能力還是智能能力,都比去年的一代有明顯提升,也讓人們對 AI 的終極形态,再度心潮澎湃。
具身智能,一種基于物理身體進行感知和行動的智能系統,人形機器人就正是根據這一概念打造而來。
12 月 13 日,虎嗅智庫舉辦了 502 線上同行主題研讨活動,來自達闼機器人高級副總裁 Karl 趙博士、上海開普勒探索機器人聯合創始人 / 副總裁胡德波、樂聚機器人副總裁吳雨璁、深圳開鴻數字產業發展有限公司 OS 產品部部長柴瑩、祥峰投資副總監陳雅琢,就具身智能和人形機器人進行了前沿觀點分享。
以下為嘉賓的部分觀點摘要:
" 肢解 " 具身智能機器人:大腦、小腦是核心
● 具身智能(Embodied Intelligence)不是一個新的知識,更多是把目前現有的人工智能領網域的新發展統一放到一起。它從上到下的功能可劃分為:大腦、小腦、主控系統、主幹結構以及零部件。
大腦,負責規劃決策、分解任務,主要就是指現在新興的 AI 大模型;小腦,負責全身的運動分層控制;主控系統,包括實施系統調度、通信協定站、CPU、GPU、FPG 硬體加速進程和算力的優化;主幹結構及零部件有雙臂、足式、輪式等,類似于人的一系列關節和肌肉。
● 在產業界,小腦的研究比大腦的研究時間更長,積澱更深。大腦對語義信息理解過後需要轉化為動作,小腦就是運動控制的核心,它主要是控制算法的進化。機器人要實現越高難度的任務,就需要小腦越能夠做到精細的底層控制,優化整個運動效果,這涉及到步态平衡、動力學模型以及控制框架等等。目前這一塊的最新研究是通過強化學習加模拟的解決方案,讓具身智能從環境中獲取它更優的狀态,然後由智能體做出決策,且對環境做出一個合理的行為反應,最終逐步實現具身智能機器人的遠景。
● 随着 AI 大模型的進化和爆火,具身智能機器人能否走進現實?國内外的學者專家對此觀點不一。有的認為可以将這種在很大數據語料庫上訓練大模型的方法通用到機器人身上。也有人認為,在目前這個時間節點,無法真正解決機器人學習的商業化大規模落地。
第一個難點是數據獲得的難度。在現實生活中收集其他的數據相對簡單,但大規模的機器人數據目前并沒有明确的獲得途徑,且機器人形态大小不一,實體的多樣性意味着需要針對機器人類型來分門别類的收集數據,這會使本來就有難度的數據收集變得更加困難。
第二是性能預知的問題。比如 GPT 的回答會和實際出現一定偏差,但真正運用到現實世界的工業、商業和家庭場景中時,容錯率是很低的,目前的機器人學習算法達不到很高的可靠性和準确度,而且硬體系統的單次失效成本也遠遠高于軟體系統,所以成本也非常高。
第三是機器人任務的 long horizon 長視野問題。不同于使用大語言模型獲得單一問題的解答,機器人需要非常多的一系列的正确指令和動作才能完成我們提出的一個簡單任務。所以,随着時間推移和任務難度的疊加,誤差也會逐漸累積變大,所以大家會覺得這個時間點用大模型做端到端的機器人具身智能并不成熟。
● 對于這方面的創業公司來說,產業在技術上算是有所準備了,但對待落地產品更應該要有終端交付的思維,而不是單純的通過高成本進行單次訓練來獲得一個相對好看的研究成果。
國外 " 大腦 " 開發超前,國内 " 降本 " 優勢明顯
● 對比硬體能力,國内公司和國外基本可以齊平,甚至在核心零部件方面,國内還略有優勢。但在 " 大腦 " 方面,AI 大模型特别是多模态的探索上,國外企業優勢更明顯,也導致了他們的機器人本體性能更強大。
● 從最早的美國波士頓動力,日本本田阿西莫,人形機器人的發展時間并不短,但這些早期產品遲遲沒能夠商業化的很大原因還是在于成本,直到現在人形機器人都沒能大規模鋪開。但未來國内企業最大的優勢也會從這裡體現,那就是軟硬體的國產自研迭代能力和供應鏈規模化後的成本降低,現在工業協作機器人的發展趨勢已經證明了這點。
● 只有人形機器人在一個合适的售價,更具體說,至少要降到十幾萬元,頂多二十萬元出頭,才能兩三年内在一些垂直場景中真正投入示範應用,而不是像現在僅僅作為科研載體。然後等售價再低到十萬元左右甚至更低時,可能才會走進千家萬戶。當然,這個前提是大腦技術要足夠成熟。
● 機器人成本高昂,除了關鍵技術還在研發以外,還有一個比較大的因素,就是傳感器的結構布局過于分散,裝的東西越多,裝配復雜度就越高,這會給成本帶來直接壓力。因此,将所有設備都用同一個軟體作業系統進行互聯互通,對于未來機器人的能力開放性和成本降低都有好處。
和 " 人 " 競争性價比,主流應用從 B 端開始
● 目前對具身機器人的研究更多是在科研中,預計未來三年到五年,會逐步先出現在 B 端場景,比如汽車、物流、倉儲、中央廚房、搬運制造業,包括還有一些高校教育,以及便利店的上下貨、清潔、最後一公裡物流等等。未來更長期看,一定是會做到 C 端場景中。因為 C 端任務更復雜和具體,所以對技術要求更高,對單台機器的造價成本也會壓低。再往後,終局會落到家庭安防、老人的看護陪伴,端茶送水等。這些難度就更高,需要極為泛化的物體互動能力。
● 除了實體機器人之外,雲網端架構還可以支撐虛拟機器人,或者又叫數字人,它雖然不是百分之百的具身智能,但也具備了具身智能的特點。雖然不能直接走動,但它也可以通過攝像頭看到聽到,具備思維能力後可以和人進行互動,這在文旅行業,包括圖書館之類已經在用起來了。
● 在 B 端應用上,一定會面臨算賬的邏輯。根據我們測算,一個人形機器人的價格,只有在跟一個員工大概一年到一年半左右的工資,也就是十幾萬元到二十萬元這個範圍内,才能和 " 人 " 產生一些競争力。而在歐美,2-3 萬美金的價格區間是批量落地應用的門檻,現在大部份人形機器人廠家都遠高于這個價格,只有少數中國廠家已經率先衝擊這個價位。
● 像碰到的有真實需求的客戶會提很多要求,這很有利于我們快速的在實際場景中打磨應用,功能性上有良好反饋,也讓我們對一線理解更深,這裡面會有一個交叉反駁螺旋上升的過程。
● 以前傳統機器人是要工程師去做配置、做編程的,所以人形機器人的大批量落地,除了攻破技術門檻,還需要非常高水準的部署便捷性,包括作業系統的集成、任務的管理、數據的安全等等一系列問題,都要一步步來解決。
... ...
本次活動中,線上參會觀眾匯集了來自北京大學、復旦大學、北京郵電大學、南開大學、中科院自動化研究所、上海人工智能實驗室等高校研究員,也有來自美團、騰訊、字節跳動、京東、商湯科技、智譜 AI、地平線等知名公司的人工智能相關負責人,還有一眾知名機構 VC 投資人,大家在互動區進行了熱烈的提問,對于 " 越來越多公司在研發基于強化學習的小模型比如抓取、導航等,如何看待這些新的小腦技術方案?"" 機器人的靈巧手多久能用來幹重活?" 等問題,嘉賓給出了精彩回復,也圓滿結束了本次 502 線上同行研讨活動。