今天小編分享的互聯網經驗:Figure創始人、“小馬斯克”解讀:人形機器人的“iPhone時刻”,歡迎閱讀。
在 AI 技術飛速發展的今天,人形機器人正從科幻走向現實。當下最火爆機器人初創公司之一的 Figure,正在其創始人 Brett Adcock 的帶領下,正在人形機器人領網域掀起一場前所未有的技術革命。這位有 " 小馬斯克 " 之稱的創始人,在近期的訪談中,分享了 Figure 在人形機器人領網域的突破性進展,以及他對未來科技發展的深刻見解。
Adcock 表示,人形機器人是通用人工智能(AGI)的最佳載體,不僅能執行復雜任務,還能通過自然互動融入人類生活。他指出,如果 AGI 只能存在于伺服器中,那麼它将永遠無法真正融入物理世界。
他認為,人形機器人正在迎來類似智能手機的 "iPhone 時刻 ",成為人類生活中不可或缺的工具。他預測,未來幾年内,人形機器人的價格将大幅下降,而性能大幅提升,最終實現大規模普及。
Adcock 還預測,在未來五年内,人形機器人領網域需要實現三個關鍵突破:首先,開發出高度復雜且可靠的硬體,使其能夠在真實環境中穩定運行;其次,通過神經網絡賦予機器人類似人類的學習和模仿能力,這在人形機器人上尚未實現;最後,解決機器人領網域的 " 聖杯 " 問題——泛化能力,即讓機器人能夠通過語音指令理解并執行從未見過的任務,實現端到端的自主操作。
見聞總結要點如下:
人形機器人領網域正在發生類似 iPhone 時刻的事情,這将是一個巨大的突破。人形機器人即将成為現實。問題是,我們只需要沿着這條曲線繼續推進,讓它更快地進入家庭。我相信,這将在本世紀發生。在未來幾年内,你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
如果我們解決了 AGI,但它只是存在于某個伺服器中,比所有人都更聰明,最終,如果它想在物理世界中做些什麼,它将不得不請求人類去做。人形機器人是 AGI 的終極部署載體。
我們設計的是一種能夠勝任各種任務的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業勞動力——大約一半的 GDP 是人類勞動。這是世界上最大的市場。目标市場規模是 50 萬億到 60 萬億美元。
未來你會看到這些機器人的價格在 2 萬到 3 萬美元之間。我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規模制造中的樣子,系統中目前沒有任何迹象表明這個產品會非常昂貴。
我們需要在接下來的 5 年左右時間裡做到三件從未有人做到的事情。首先,我們需要打造一款極其復雜的人形機器人硬體。其次,你必須通過神經網絡,讓機器人像人類一樣學習和模仿。這在人形機器人上從未被解決過 ...... 第三,你需要解決一個機器人領網域的 " 聖杯 " 問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務,并且能夠用一個神經網絡完整地執行這個任務,從頭到尾。
真正困難的部分是,機器人需要解決家庭環境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種 " 語義智能 ",也就是人類世界與機器人世界之間的語義連接。
機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設計角度來看,這非常重要 ..... 我們需要讓機器人學會人類的表情,就像我們需要它們學會抓取物品一樣。随着我們大規模地将機器人引入整個世界,這種能力将變得至關重要。
( 人形機器人 ) 有兩個主要的應用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據了 GDP 的一半。機器人在勞動力市場中執行的任務大多是重復性的,而家庭市場則像 " 狂野的西部 ",極其復雜。家庭市場的復雜性遠高于勞動力市場。
以下為訪談實錄全文,由 AI 翻譯
旁白:
非常榮幸能向大家介紹 Brett Adcock,Figure 的創始人兼首席執行官。
主持人:
你們從零開始,在短短 31 個月内就推出了第一台機器人。
Adcock:
我們每 12 到 18 個月設計一個新的硬體平台。在我提交 C 公司注冊檔案之前,我們的機器人在不到 12 個月的時間内就已經能夠行走。我認為在未來幾年,你會看到它通過語音控制被放入家庭中,能夠長時間工作而無需任何提示。人形機器人領網域正在發生類似 iPhone 時刻的事情,這将是一個巨大的突破。
現在,女士們、先生們,這是一個宏偉的目标。我想大多數人都知道,新聞媒體總是給我們帶來負面消息,因為我們對負面消息的關注度是正面消息的 10 倍。對我來說,唯一真正值得投入且能影響人類的是科學和技術的使用。這就是我關注的内容。每周我都會發布兩篇博客,一篇關于人工智能和指數技術,另一篇關于長壽。
好的,讓我們回到這一集。感謝你今天來到這裡。是的,謝謝。我知道,你有三個年幼的孩子,還有一個機器人工廠和一個令人難以置信的工程師團隊,你真的很忙。我不會認為這是理所當然的。是的,我唯一的請求是下次我想要一台 Figure 機器人。
好的,我明白了。
寶馬已經預訂了它們的生產線份額。
是的,我們确實有很多。實際上,我們每天都在運行它們。所以,它們今天就在那裡運行,就在他們最大的工廠裡。
為什麼你要創辦 Figure?我是說,你已經取得了令人難以置信的成功,Archer 也非常出色。然後你跳進了可能是最難進入的行業之一。
是的,我認為我們真的需要為 AGI 找到一種方式來賦予它一個身體。我認為,如果我們解決了 AGI,但它只是存在于某個伺服器中,比所有人都更聰明,最終,如果它想在物理世界中做些什麼,它将不得不請求人類去做。人形機器人是 AGI 的終極部署載體。你無法用其他東西解決這個問題。你需要某種單一平台,無需硬體更改就能做人類能做的一切。你還需要某種對神經網絡有益的東西。人形機器人中的神經網絡可以通過遷移學習實現多任務處理,這非常适合神經網絡。因此,我們基本上可以構建一個單一的神經網絡基礎模型,為整個機器人提供端到端的全部功能。
恭喜你,你們從零開始,在 31 個月内就推出了第一台機器人,這非常了不起。許多公司在這麼長的時間内可能只是準備好他們的 PPT 并籌集了第一筆資金。我将會看到一些機器人,當我上次去北邊拜訪你的時候,你向我展示了 Figure 1,還有 Figure 2,還有 Figure 3 的設計。
讓我感到真正驚嘆的是你們迭代的速度。你能談談這一點嗎?快速迭代在硬體領網域有多重要?因為硬體很難。
是的,這是一個難題。我們必須想出一種從未有人做過的事情。這是一個非常復雜的系統,從工程角度來看,它肯定比 Archer 更復雜,就像建造一架電動飛機一樣。所以,我的經驗法則是,第一代或第二代硬體總是會很糟糕。你知道,第一代 iPhone 并不好。第一次做某事時,你永遠無法一次就做對。硬體就是這樣。你必須能看到五年後的未來,确切地知道產品是什麼樣的,然後從第一天起就進行全新的設計。如果你在這些方面犯了錯誤,你可以通過設計過程來修正。你有很長的前置時間、供應鏈,等等。所以,我們每 12 到 18 個月設計一個新的硬體平台。
順便說一下,這聽起來真的很令人驚嘆,對吧?每 12 到 18 個月就進行一次全新的迭代。
是的,我們在提交 C 公司注冊檔案之前,就已經讓 Figure 1 實現了行走,不到 12 個月。
另一件你們做到的事情是你們實現了完全的垂直整合。
是的,這并不是必要之舉。人形機器人沒有供應鏈。沒有電機供應商,沒有傳感器供應商,沒有電池系統供應商,沒有運動學結構供應商……所有軟體也是如此,相當廣泛。包括固件、嵌入式系統、作業系統、中間件、控制系統。
那麼,帶我們參觀一下你的工廠吧。你之前已經帶我參觀過,但像,設計方面……你是如何從頭開始設計的?
是的,我們從頭開始全新設計所有東西。我們從本質上思考產品需要做什麼。產品需要能夠與人類交流,并且能夠在沒有任何人類幹預的情況下完成任務。它需要能夠出去完成任務。所以,我們設計的是一種能夠勝任各種任務的機器人,從家庭機器人到遛狗、煮咖啡、洗衣服,再到商業勞動力——大約一半的 GDP 是人類勞動。這是世界上最大的市場。
全球 GDP 是 110 萬億到 120 萬億美元。你的目标市場規模是 50 萬億到 60 萬億美元。這很不錯。
是的,這将會成為我們有生之年最大的業務,遠遠超出其他領網域。這個領網域……是的,所以,我們從產品需要進入的終端市場開始思考。我們進行所有硬體設計,包括運動學設計、關節、電機、電池系統、傳感器。我們進行所有軟體設計,包括固件、嵌入式系統、控制系統、所有人工智能工作,端到端。然後我們進行所有測試、制造、集成,并将它們交付給客戶。所以,我們現在有兩家企業客戶。第一個是寶馬。我們的機器人每天都在那裡運行。它們在南卡羅來納州的斯巴達堡,幫助制造汽車。
我想我有一些寶馬工廠的視頻,如果我們可以播放背景視頻或重復播放這段視頻。
好的,我們可以播放。我們還有一些機器人在寶馬工廠的視頻。這些機器人基本上是在将金屬板材固定在夾具上。這是世界上每一家大型制造公司都在做的事情。我們的機器人已經完全自主地完成了這項任務,達到了我們需要的高性能,沒有人工幹預,沒有故障,沒有失敗。
沒有藥物測試。沒有病假。沒有休息日。
是的,24/7 全天候運行。
這很有趣,對吧?讓我跳到另一個問題。從體積上看,我相信我聽到你說過,未來你會看到這些機器人的價格在 2 萬到 3 萬美元之間。
是的,我們在材料成本方面做了很多工作。如果你從頭開始分解,逐項分析,看看它在大規模制造中的樣子,系統中目前沒有任何迹象表明這個產品會非常昂貴。
我的計算是,如果我要租一輛 3 萬美元的車,每月大約是 300 美元,也就是每天 10 美元,每小時 40 美分。所以,我的問題是,如果你每月支付 300 美元,就能擁有一台 24/7 運行、從不抱怨、不會和女朋友或男朋友吵架的機器人,你會想要擁有多少台呢?我認為,每個人可能都需要擁有多台。
是的,你會想要一台的。它們可以在你每天早上醒來時幫助卸下洗碗機,撿起孩子們的玩具。我再也不想做這些事了。你知道,這些事我再也不想做了。我們已經很久沒有在家庭中看到創新了,差不多 50 到 70 年了。它們是相同的電器,相同的東西。我們需要新的機器人。
我們需要舊的,我們現在稱它們為洗碗機。
是的,它們已經存在很長時間了。我們人類不得不每天與這些機器打交道。未來你不需要再這樣做了。你只需要和機器人說話,讓它去做。它可以按照時間表工作。你可以随時呼叫它、發短信給它、和它說話,讓它去做事,它就會去做。它會比你自己更了解你。
我記得幾年前,我很自豪地成為 Figure 的早期投資者,我把團隊介紹給你。我說,首先,布雷特是一位出色的運營者,有多個成功案例。未來最好的預測器是什麼?是一個人在過去做過什麼。這确實是未來最好的預測器之一。但我發現最令人驚嘆的是你組建的團隊。你能談談這一點嗎?因為我認為我們這裡有很多觀眾都在關注他們的宏偉目标。這是一個宏偉目标。你退出 Archer 後,你是如何開始的?你是如何組建團隊的?你能描述一下那個早期時刻嗎?
是的,你知道,我在一生中并沒有創辦過很多公司。每次我都會回去思考,我哪裡做錯了?哪裡做對了?如何讓事情變得更好。
從根本上說,我花時間思考的是,要打造世界上最偉大的產品,你需要世界上最偉大的團隊。然後你需要将這個團隊與共享願景對齊,每個人都需要對這個願景負責,理解它。然後你需要弄清楚如何全力加速。
所以,Figure 的整個文化,甚至在我創辦 Archer 并組建最初的團隊時,都是非常有意識的。即使在 Figure,如果你現在去左邊,我們有文化手冊,我們有總體規劃,我們有一些真正獨特的東西。我們在矽谷,但幾乎與矽谷的風格相反。我們必須每天在辦公室工作。我們每周工作五到七天,非常努力。現在很多人不想這樣,這沒關系。只是他們不适合我們。我們現在已經聚集了世界上最好的航空航天工程師。沒有人能接近我們所做到的。
是的,這真是令人難以置信。
是的,這太不可思議了。我的整個商業團隊從 Archer 時期就和我在一起,現在也在 Figure。他們都是出色的運營者。他們給了我能力去專注于產品工程,打造最好的產品。他們幫助擴展業務,這很棒。招聘、人力資源、法律、财務,各個方面都很出色。所以,團隊非常出色。但更重要的是,我們的文化非常精準。就像每個人都知道自己應該做什麼。我不需要進行一對一的溝通,因為我們的團隊有一個共同的願景,那就是推出產品。這就是我們的動力所在,也是我們所有人共同的目标,這真的很好。這是一個非常困難的事情。人形機器人可能是我從事過的最復雜的項目之一。如果沒有這種文化,我們根本無法實現目标。
你知道,我們明天會聽到特拉維斯 · 克朗(Travis Klang)的分享,他也會說類似的話——你的 " 巨大變革目标 "、清晰的使命和願景,以及如何圍繞這些目标來組織團隊和文化。這都始于你。你用自己的資金啟動了這個項目,然後開始聯系其他公司的人。你當時的說辭是什麼?是為了籌集資金,還是為了吸引員工加入?不,是為了讓員工加入。
哦,那麼你在 2022 年的說辭是:" 我會資助這個項目多年。你知道,這很昂貴。我們在最初的六個月裡就達到了每月 100 萬美元的燒錢速度。但這并不是說沒有風險,我只是從一開始就全力以赴。我非常清楚我們要做什麼。
你知道,Archer 在某種程度上就像一架飛行機器人。所以我知道如何組建團隊,我知道產品要做什麼。我對動力系統、控制系統、軟體和傳感器的技術細節有深刻的理解。所以我們很快就行動起來了。我的說辭是:" 嘿,我會資助這個項目,所以至少在未來幾年内不會有資金風險。我們有機會打造下一個‘ iPhone 時刻’。人形機器人領網域即将迎來這樣的時刻,這将是一個巨大的機遇。"
那麼,你告訴他們成功的概率是多少?
成功的概率很低。我們需要在接下來的 5 年左右時間裡做到三件從未有人做到的事情,否則我們肯定會失敗。首先,我們需要打造一款極其復雜的人形機器人硬體。它不能出故障,必須始終正常工作,并且要以人類的速度和靈活性運行。從來沒有人做到過這一點。比如,波士頓動力的機器人雖然可以跳躍、翻跟頭,但還無法做到像人類一樣靈活地操作物體。這是一個硬體系統的巨大挑戰,可能和制造噴氣發動機一樣復雜。
其次,這是一個神經網絡問題,而不是控制問題。你不能通過編寫代碼來解決這個問題。你不能雇傭一堆博士,讓他們為機器人編寫程式來解決每一個問題。你必須通過神經網絡,讓機器人像人類一樣學習和模仿。這在人形機器人上從未被解決過,因為這是一個高維度的系統,而不是像桌上的機械臂那樣簡單,後者大多數都沒有人工智能。
第三,你需要解決一個機器人領網域的 " 聖杯 " 問題:泛化能力。你需要讓機器人通過語音指令理解它從未見過的任務,并且能夠用一個神經網絡完整地執行這個任務,從頭到尾。
我們需要在 2022 年解決這些問題。如果我們能做到,我們就會在這個十年内取得成功,打造出人形機器人領網域的 "iPhone 時刻 "。我們已經全面啟動了。但在 2022 年,這些看起來幾乎是不可能完成的任務。當時,波士頓動力的機器人雖然可以做很多動作,但還遠遠達不到進入家庭所需的靈活性和操作能力。現在,我們可以說我們已經在這些方面取得了實質性進展。
這太令人驚嘆了。
所以,去年有一個關鍵的時刻,你說 OpenAI 是一個重要的投資者,你們原本計劃使用 OpenAI 的 AI 系統,但你最終決定自己開發内部的 AI 系統—— Helix。你能談談這個決定嗎?我想展示一段關于 Figure 在家庭中應用的視頻。
好的。你看到的是 Helix,這是我們内部開發的大型 AI 系統,它是一個視覺 - 語言 - 動作模型。這段視頻是公開的,可以在 YouTube 上找到。科裡(Corey)是 Helix 團隊的負責人,他給出的指令是 " 把雜貨放在桌子上 "。
但機器人并沒有被告知這些雜貨應該放在哪裡,也沒有被告知它們是什麼。實際上,我們在訓練中故意沒有讓機器人接觸過這些物品。所以,這是機器人第一次通過自己的攝像頭和傳感器看到這些物品。真正困難的部分是,機器人需要解決家庭環境中的泛化問題。每個家庭都是不同的。你知道,我們都有不同的烤箱、不同的鍋鏟、不同的餐具,而且這些物品的擺放位置會不斷變化。所以,你必須解決這種 " 語義智能 ",也就是人類世界與機器人世界之間的語義連接。
Helix 能夠通過單個神經網絡在每個機器人之間進行通信,并且能夠将這些物品正确地放置到位。這可能是機器人歷史上最重要的 AI 更新。未來所有能動的物體都将是機器人,它們将由像這樣的 AI 代理驅動。這個系統是用非常少的數據訓練的,只有 500 小時的數據。
我非常喜歡他們互相看着對方以确認的方式,比如 " 是的,我明白了 ",或者 " 哦,把那個東西放在那裡是個好主意 "。
是的,這确實很有趣。部分原因是這種行為是從訓練中自然產生的。當機器人進行物品交接時,它們實際上會互相看一眼,這是一種信号,表明它們應該在何時松開或抓住物品,以防止物品掉落。這種行為是從訓練中自然產生的,非常有趣。另一個原因是,機器人在互相移動時需要進行一定程度的交流。從機器人與人類的互動設計角度來看,這非常重要。你不想走進一個房間,看到機器人只是呆呆地站着,不看你,也不做出任何反應。人類會通過眼神交流、點頭和手勢來進行溝通。所有這些對于機器人來說都是非常重要的,因為我們需要讓機器人學會這些人類的表情,就像我們需要它們學會抓取物品一樣。随着我們大規模地将機器人引入整個世界,這種能力将變得至關重要。
我有一千個問題想問你。讓我快速地提幾個。好的,那我們開始吧。Figure 3 什麼時候能展示出來?我看到了它的設計。Figure 3 什麼時候能公開展示?
你會一直問我們這個問題。你覺得它好看嗎?我認為你已經看到了它。
它的設計非常出色。我認為人們還不明白這有多麼令人驚嘆。
因為我們還沒有公開展示,所以他們不知道。你知道,Figure 1 是我們在視頻中展示的機器人,那是第一代機器人。你可以看到,Figure 1 有點粗糙,外面還露着電線,設計得更快速,以便讓我們的工程師能夠盡快開始進行實際的用例測試。
Figure 2 是一個功能完備的機器人,它幾乎可以完成人類能做的所有事情。我們還沒有公開談論太多,但我們現在已經完成了 Figure 3 的設計。我想我們可能會在下周展示一個更新版本。雖然這次更新可能不會涉及太多技術細節,但 Figure 3 相比前代產品是一個巨大的飛躍。從 Figure 1 到 Figure 2,已經是一個巨大的飛躍,從一個大學宿舍項目的原型到一個相當不錯的機器人。而 Figure 3 的飛躍同樣巨大。我們花了 18 個月從頭開始設計它。從高層來看,它比前代產品便宜了 90%,更小、更輕,配備了更好的傳感器。它的手部、頭部和腳部的設計完全為神經網絡優化。這可以說是我職業生涯中最自豪的工程成就之一。我們計劃今年開始量產 Figure 3,并将其推向市場。
這就是我們希望推向全世界的機器人。我們希望它成本低廉,功能強大,并且在幾乎所有方面都更優秀。我們很快會發布更多關于它的更新。這就是我們希望推向家庭和勞動力市場的機器人。
關于未來三到四年的生產計劃,以及我什麼時候能在家裡看到它?
我們有兩個主要的應用方向:勞動力市場和家庭市場。很多人沒有意識到的是,勞動力市場才是最大的市場,它占據了 GDP 的一半。我們可以在家庭市場收取更高的價格,但家庭市場也更復雜。機器人在勞動力市場中執行的任務大多是重復性的,而家庭市場則像 " 狂野的西部 ",極其復雜。我們面臨巨大的安全挑戰,例如确保機器人不會撞到人或引發危險,比如打翻蠟燭引發火災。家庭市場的復雜性遠高于勞動力市場。
目前,我們在勞動力市場的需求非常旺盛。我們的前兩個商業客戶——寶馬和其他一家大型物流公司——已經對我們的機器人表現出極高的興趣。如果今天有 10 萬台機器人可用,這些客戶會立刻購買。我們還與 50 家财富 100 強公司進行了接觸,他們都對我們的產品表示了強烈的興趣。勞動力市場的需求幾乎是無限的,因為全球人口結構的變化導致勞動力短缺,尤其是在制造業和物流領網域。
我們計劃在家庭市場進行内部測試,最早可能在今年開始。我們的目标是讓機器人能夠通過語音指令完成各種家務任務,比如收拾餐具、照顧孩子、做家務等。我們相信,随着 Helix 的不斷進步,機器人将能夠在家庭環境中自主學習和執行任務,而不需要人類的持續指導。
我們面臨的最大挑戰仍然是語義智能,即機器人需要理解它所處的環境并正确執行任務。我們相信,通過增加訓練數據量,Helix 将能夠更好地理解家庭環境。目前,Helix 的訓練數據量還比較有限,只有大約 500 小時。我們計劃在未來幾個月内大幅增加數據量,以提升機器人的性能。
目前,Helix 的訓練數據量還比較有限,只有大約 500 小時。我們在網站上提到 Helix 時,展示了一個小實驗:把一些奇怪的小物件放在機器人面前,比如從孩子房間裡拿出來的仙人掌玩具,然後告訴它 " 撿起那個沙漠物品 ",它會把仙人掌識别為一種沙漠植物。它能夠識别并撿起這些物品。所有這些都存儲在它的權重中,它有一個很大的語言模型作為支撐。因此,它真的理解了世界的語義基礎。
我們覺得,現在 Helix 只是數據受限。如果我們把訓練 Helix 的數據集增加幾個數量級,它可能會表現得更好。目前,Helix 已經能夠識别并撿起我們放在它面前的幾乎所有小物件。比如,我們放了一個會唱歌、會動的玩具仙人掌,它識别出了這是一個 " 沙漠物品 ",并将其撿起。所有這些都存儲在它的權重中,它有一個很大的語言模型作為支撐。所以,它真的理解了世界的語義基礎。
我們只需要更多的數據,這基本上是目前的瓶頸。我們覺得,只要增加 Helix 訓練的數據量,它就能更好地理解家庭環境。目前,Helix 已經能夠很好地完成任務,比如識别并撿起我們放在它面前的物品。它甚至可以通過語義理解來完成任務,比如當我們說 " 把那個沙漠物品撿起來 ",它會把仙人掌識别為與 " 沙漠 " 相關的物品并撿起它。所有這些都表明,Helix 已經具備了很強的語義理解能力。
我認為,我們已經開始看到一些突破性的進展,這在歷史上從未有過。人形機器人即将成為現實。問題是,我們只需要沿着這條曲線繼續推進,讓它更快地進入家庭。我相信,這将在本世紀發生。在未來幾年内,你會看到人形機器人通過語音控制進入家庭,能夠長時間工作而無需任何提示。
好的,感謝大家收聽本期節目。這是我最喜歡分享的内容。每周我都會發布兩篇博客,很多内容都來自這裡,這些是我的個人筆記,記錄了我關于人工智能、長壽以及正在改變我們世界的前沿技術的學習和思考。下周我們再見!