今天小編分享的互聯網經驗:第一個“拿起蘋果”的人形機器人,為什麼是Figure?,歡迎閱讀。
圖片系 AI 生成
文 | 產業象限,作者丨錢江,編輯丨山茶
3 月 13 日,一則 2 分 34 秒的人形機器人視頻引爆了網絡,讓人驚呼具身智能的時代提前到來了。
視頻内容是美國人形機器人公司 Figure 的產品演示實景拍攝,視頻中,工作人員向機器人詢問 " 我能吃點東西嗎 ",機器人遲疑了幾秒,然後熟練地将蘋果遞給了工作人員。
▲圖源 Figure
相信許多人看到這個畫面,都會有一種不真實的感受,似乎置身科幻之中。
為了将大家拉回現實,Figure 創始人 Brett Adcock 還在 X 上特意強調,視頻是以 1.0 倍速連續拍攝的,機器人沒有遠程操作,所有動作和反饋都是完全基于深度學習自主完成的。
顯然,随着 Figure 這則視頻的發布,人形機器人又完成一個關鍵突破。
但問題也随之而來,為什麼會是 Figure?
要知道,Figure 成立于 2022 年,發展時間距今不過 2 年。作為對比,世界上其他鼎鼎大名的人形機器人公司,特斯拉投入人形機器人已近 3 年,最近上市的優必選做了 12 年,波士頓動力更是做了 21 年。
那麼,為何拿起 " 蘋果 " 的第一台人形機器人是 Figure?Figure 是如何做到僅用兩年的時間,就引領具身智能的前沿發展的?它為何會成功,又面臨怎樣的挑戰?
驚豔的只是 " 智能 "
雖然 Figure 展現了人形機器人無與倫比的互動能力,但我們仍然需要意識到的是,這并不代表真正的具身智能已經實現了,或者如 Demo 視頻中展現的人形機器人就即将進入千家萬戶。
原因很簡單,首先 Demo 視頻演示的只是一個固定場景,而機器人真正進入人類生活和工作,還需要學會成千上萬個類似的場景,這是一個從 0 到 1,和從 1 到 100 的過程。
做一個簡單的舉例,就像自動駕駛第一輛車能夠在測試道路上實現直線、轉彎、超車變道等場景的自動駕駛,但并不等于自動駕駛車輛就有了上路行駛的能力。
就自動駕駛而言,早在 20 世紀 60 年,卡内基梅隆大學的研究人員依靠計算機視覺和人工智能開發的自動駕駛汽車,就已經可以在高速公路上以每小時 20 英裡的速度行駛了。但直到 60 年後的今天,L5 級别的自動駕駛仍然遙遙無期。
其次在 Demo 視頻中,Figure 01 并沒有移動,它只是站在桌子面前,整個互動過程考驗的只是它的意圖識别、人機互動,以及上肢的操作能力。
簡單來說,這個視頻展示的真正厲害的點在于 Figure01 的軟體能力,即其内部融合的 OpenAI 大模型大腦的部分,以及 Figure01 自己的,可以将 OpenAI 大模型能力與機器人本體(指機器人機械部分)進行翻譯和互動智能系統。
Brett Adcock 将這套系統稱為 " 端到端 " 的神經網絡,其工作流程大致為,OpenAI 的大模型作為大腦,提供視覺推理和語言理解(其中可能包括 Sora 和 GPT-4 的能力);Figure01 神經網絡作為小腦,根據 OpenAI 的大模型的判斷做出一系列快速、低級、靈巧的機器人動作。
而對于人形機器人的考驗,軟體互動能力只是其中一部分,另一部分在于其本體的機械能力,比如如何在行走中保持平衡,各個機械部件的傳動能力,如何讓動作變得自然平穩,如何控制力度和精度等等。
而這些,需要考驗人形機器人公司軟體和硬體的協同開發能力,需要考驗整個人形機器人供應鏈上下遊的共同開發能力。而供應鏈也是目前人形機器人面臨的最大挑戰之一,其復雜程度不亞于當前的汽車產業鏈,但與汽車產業鏈發展距今 130 多年相比,人形機器人的產業鏈還處于 " 一張白紙 " 的狀态。
Brett Adcock 也同樣認為,目前人形機器人最大的難題在供應鏈,這一點我們後面會詳細展開。
當然,Figure 在機器人本體上也并非全無成績。事實上,它正在以飛快的速度前進。
這幾年,人形機器人公司賽道上的選手有很多,Figure01 的速度格外扎眼,它只用了 1 年時間就打破了機器人行走紀錄,而特斯拉花了 15 個月、波士頓花了 21 年。
▲圖:X@Brett Adcock
除此之外,資本市場的青睐也給了它更多的推力。
今年 2 月,Brett Adcock 公布 Figure 獲得 6.75 億美金融資,其投資團隊震動了半個矽谷,亞馬遜創始人貝索斯,以及微軟、英偉達、OpenAI 都來捧場。
随後,Brett Adcock 也公布了一張公司職位申請數量增長圖,來顯示 Figure 的受歡迎程度,從 2023 年 7 月到 2024 年 2 月,8 個月期間想入職 Figure 的應聘者數量增長了 218%。
▲圖源:X@Brett Adcock
總而言之,Figure 正在以前所未有的速度,向着 " 具身智能 " 的時代前進。
借上 OpenAI 的東風
正如我們前面提到的,Figure01 的關鍵是軟體,而軟體中讓人驚豔的能力又主要來源于 OpenAI。
所以嚴格意義上說,Figure 在人形機器人上做出的創新其實有限。
但這并不妨礙 Figure01 帶來的驚豔。Figure01 能聽懂人類的指令、識别出哪一個物體可以食用,并順暢地轉化為行動能力。
這項能力之所以令人驚豔,除了絲滑無障礙的溝通之外,還在于它解決了機器人行業的一個固有悖論—— " 莫拉維克悖論 "。
它由人工智能和機器人學領網域的先驅漢斯 · 莫拉維克提出,在計算機和機器人系統中一個有趣且非直觀的現象:對于人類來說簡單的感知和運動任務,對計算機和機器人而言卻異常困難;而人類認為復雜的邏輯和抽象思維任務,對計算機來說卻相對容易。
所以 Figure01 展現的遞蘋果、擺盤子行為看上去簡單,實現起來有一定的技術難度,需要擁有識别、計劃和執行任務的能力。
而這項能力也來源于 " 端到端的神經網絡閉環 ",即 Figure01 可以直接将看到的、聽到的信息轉化為語言和行為結果,中間不需要經過其它程式處理。
Brett Adcock 解釋 Figure01 的技術路線,稱 Figure01 連接了 Open AI 的能力,所有行為均由神經網絡視覺運動變壓器策略驅動,可以将像素直接映射到動作。
▲圖源:X@Corey Lynch
出門問問創始人李志飛在他的賬号 " 飛哥說 " 中詳細剖析 Figure1 的技術原理,在整個過程裡,Figure01 至少靈活擁有兩項能力:大語言模型的思維鏈 COT 能力,以及順暢的底層操控能力。
拆開來說,Figure01 的這一套操作,需要機器理解自然語言,并把自然語言轉換成機器的抽象計劃,再将這項抽象計劃轉化成底層操控。
最近的一次引發轟動的機器人成果,是斯坦福大學華人團隊研究的 Mobile ALOHA,它能夠炒蝦仁、按電梯,這個能力還是通過人工遠程操控疊加靜态 ALOHA 數據才實現。
▲ Mobile ALOHA 樣機
在機器人領網域,目前為了解決這個問題最盛行的是三種模型:
第一個是 RT-1 模型,輸入文本指令和對應影像,通過預訓練模型将其轉化為 token,再經過壓縮,最後輸出機器人聽得懂的三個維度操作指令 Mode、Arm、Base,分别用于控制機器人的模式轉化、控制機器人手臂動作,以及控制機器人移動。
第二個是 PaLM-E 模型,通過輸入多模态模型知識,對任務信息進行處理,分解成特定的機器人指令。
這兩種模型可以進行融合,機器人經過 PaLM-E 模型接收特定指令,再由 RT-1 将特定指令轉化為對應的機器人控制指令。
第三種是 RT-2 模型,即視覺 - 語言 - 動作(VLA)模型,可以直接将機器人輸入的信息轉化為動作,單從表現來看,這似乎更符合 Corey Lynch 對外宣稱的 " 端到端 " 實現方式。
根據李志飛團隊的分析,Figure01 更符合 RT-1+PaLM-E 的模型融合。Figure01 從接收指令到行動,雖然這個這個過程有延緩,但整體非常順滑,RT-2 決策頻率是 1 到 5hz,很難做到 Figure1 的 200Hz 程度。
Brett Adcock 搭載了 Open AI 的順風,在具身智能的道路上邁出了一大步。
部門時間内跑的最快的公司
當然,如果要回答 Figure 為什麼跑得這麼快,也不得不提到它的創始人 Brett Adcock 了。
和馬斯克一樣,Brett Adcock 在社交媒體上異常活躍。但 Brett Adcock 又與馬斯克的口無遮攔,嬉笑怒罵不同,他在社交媒體上更新的主要是他的工作進度和思考。
這是一個實打實的工作狂。2003 年 4 月,随着 Figure 完成 7000 萬美元 A 輪融資,Brett Adcock 在 X 上發布帖子的速度變得更加勤快。
他每天都發布若幹條創業心得或與機器人相關的動态,并按 " 周 " 的速度強調一遍對 "AI Robotics" 行業的觀察與變化,常用語是 "Bug week of developments … " 或者 "That's it for this week's AI and Robotics breakdown"。
除此之外,Brett Adcock 還是一個久經沙場的創業老兵。在投身人形機器人這一硬體領網域之前,他就已經在軟體領網域摸爬滾打了 10 多年。
他在 X 上常常總結分享自己的創業洞見,最常見的幾個關鍵詞是:快速、高效、輕便、低員工數、小團隊、系統,在創辦 Figure 之前,這些方法論是 Brett Adcock 連續創業成功的關鍵。
Brett Adcock 出生于 1986 年,他的童年在伊利諾伊州莫韋誇小鎮外的一個玉米和大豆農場度過,或許從小就見慣了日夜勞作的過程,他對提高工作效率、節省勞動力的事情格外着迷。
2002 年,還在上學的 Brett Adcock 就創辦了一家網絡公司 Street of Walls,據說這家網站至今還在幫助金融領網域公司提高面試效率。
2012 年,25 歲的 Brett Adcock 和 Adam Goldstein 聯合創辦了一個就業網站 Vettery,在這段經歷中,Brett Adcock 将 " 高效 " 這件事情拔高了 N 個等級。
最初,Vettery 只為第三方招聘公司提供服務,但 " 經歷幾次絕望的轉型 " 之後,最終決定 " 抛棄所有招聘人員,将求職者和公司放在一個市場 ",通過機器學習匹配求職者和招聘方。
這個方法果然奏效,Vettery 的用戶幾乎每周都在翻倍增長。
▲圖源:Newatlas
正向的循環很快得到了市場的回應。
2018 年,Vettery 在短短 6 年的時間内獲得 20000 名客戶,獲得當時世界上最大的招聘公司 Adecco 集團的注意,Adecco 集團以 1.1 億美金的價格收購了 Vettery。Brett Adcock 獲得了人生第一桶金。
Brett Adcock 的第二個創業項目是 " 電動垂直起降飛機 ",其創辦的 Archer Aviation(簡稱 Archer)是第一批 eVTOL(電動垂直起降)概念的公司之一,這時 Brett Adcock 30 歲。
Brett Adcock 很擅長 " 找錢 " 和 " 找人 "。
Archer 成立後不久,Brett Adcock 就拉來了沃爾瑪電子商務主管兼 Jet.com 創始人馬克 · 洛爾 ( Marc Lore ) 作為投資人。Lore 在 2016 年将 Jet.com 出售給沃爾瑪的時候就已經身價上億,2020 年還持有 2.75 億美金沃爾瑪股票。
通常來講,Lore 不會投資朋友和家人以外的創業公司,但 Brett Adcock 成了例外。不僅如此,Lore 還幫助 Brett 從家族和其他對科技感興趣的富人那裡籌集了大量資金。
很快,Brett Adcock 組建了 " 豪華 " 的 44 人團隊,尋找航空領網域的人才,包括前航空電子和工程部門負責人斯科特 · 弗曼 ( Scott Furman ) 和湯姆 · 穆尼斯 ( Tom Muniz ) 、空中客車公司 Vahana 原型機的總工程師傑夫 · 鮑爾 ( Geoff Bower ) ,正式開啟 " 空中租車服務 " 的旅途。
Brett Adcock" 找錢 " 和 " 找人 " 的能力也復制到了 Figure 上。
2022 年,當 OpenAI 開始在文本生成、自動編程、語言翻譯、内容創作等多個領網域嘗試應用 GPT-3 時,Brett Adcock 也從 Archer 離職了。
這個決定非常出人意料,因為當時 Archer 已經在申請飛行證的關鍵節點,現在我們無法考證 Brett Adcock 的離職是否是看到了人形機器人的更大機遇,但至少 Brett Adcock 因為這次離職趕上了人形機器人的風口。
之後就有了 Figure 的故事,Brett Adcock 找來了 Jerry Pratt 擔任首席技術官,谷歌 DeepMind 科學家 Corey Lynch 也加入了 Figure 團隊。
Jerry Pratt 從 1998 年就開始研究機器人,他曾經寫過一篇論文《Walking on Partial Footholds Including Line Contacts with the Humanoid Robot Atlas》,這篇論文提出了一套算法,它可以讓人形機器人在有限的立足點信息内,也能實現邁步,火出圈的波士頓 Atlas 采用的正是這個算法。
2022 年 5 月,Figure 成立。之後兩年,人形機器人賽道群雄環伺。
國外有馬斯克不斷迭代 Optimus,1X 也獲得 Open AI 融資,中國市場宇樹 H1 不斷鑽研全尺寸人形機器人跑步,優必選敲鍾上市。Figure 能在這些公司中突圍而出,或許緣于 Brett Adcock 在 X 上表達的理念," 如果我是一名投資人,我會建議尋找部門時間内進步最大的公司 "。
難啃的供應鏈
雖然在 Brett Adcock 的帶領下,在矽谷資本的助推下,Figure 正在以飛快的速度前進。但擺在 Figure 面前的挑戰也同樣艱巨。
Brett Adcock 曾說起他選擇人形機器人的原因," 我們正在目睹前所未有的勞動力短缺,在我們重點關注的倉儲和制造行業,年周轉率在 50-150% 之間,這些行業正在努力尋找 / 留住人才并擴大勞動力規模。"
Brett Adcock 認為機器人做成人形更有效率,因為擁有腿、手臂和手的機器人可以執行類似人類的任務,而無需改變環境,畢竟,重塑整個物理世界,是一項難以克服的挑戰。
" 有用 " 是 Brett Adcock 做人形機器人的第一要義。但要讓人形機器人有用,證明這件事情是第一大挑戰。
Brett Adcock 在一段采訪中表示,已經有幾十個客戶在尋找與 Figure01 的合作,但目前只和寶馬做了真正的合作,因為寶馬會真正地将人形機器人的部署和集成送到他們在斯帕坦堡的設施。他要先用盡可能少的機器人,證明可行性。
其次,當從有用到真正帶來生產了,人形機器人還需要大規模制造,而這其中的首要條件,就是硬體的可靠性。
雖然 Brett Adcock 有過一段做硬體的經歷,但真正踏入人形機器人世界時,他還是被供應鏈難住了。" 供應鏈的缺乏讓我感到驚訝,這也意味着未來創業者還有很多新機會 "。
他在 X 上多次提及人形機器人缺乏一套成熟的供應鏈,因此團隊必須從頭開始設計整個機器人,包括執行器、電子設備、結構、關節、作業系統、控件、固件、人工智能系統等。
復雜多樣的零部件需求,意味着要從全球不同的供應商那裡進行采購,為了确保零部件的質量和供應的可靠性,還需要選擇合适的供應商,并維持良好的合作關系,這又不得不投入大量時間進行供應商管理、評估和審查。
更重要的是,人形機器人對零部件高性能的要求,會產生較高的成本,如果未來要規模化生產 Figure01,Brett Adcock 必須思考如何降低采購和物流成本,來保證企業的利潤。
在機器人領網域,技術帶來的驚豔是一回事,但是如何在商業化上做好規模化又是另一回事。
而這也不僅僅是 Figure 的挑戰,也是所有人形機器人企業共同面臨的挑戰。
* 文中配圖來源于網絡。