今天小編分享的互聯網經驗:90後清華博導的“造人”計劃,歡迎閲讀。
出品 | 虎嗅科技組
作者 | 王欣
編輯 | 苗正卿
頭圖 |《鋼鐵俠 3》
虎嗅注:本文為虎嗅 《AI 星火》系列 第 19 篇稿件,《AI 星火》系列聚焦 AI 細分行業的頭部公司,通過記錄 AI 創業者的故事,折射出他們對 AI 產業的共識與非共識。今天的主角是一位 92 年的清華博導,他一邊學着怎麼開公司,一邊造出了全球跑得最快的機器人。
10 月 14 日,在位于清華科技園的星動紀元會議室,虎嗅與創始人陳建宇進行了一對一交流,他很謙虛地告訴虎嗅:在與資本打交道上,還要多學習。
自此兩天後,就傳來了星動紀元 Pre-A 輪融資 3 億元的消息,投資方包括阿裏巴巴、聯想創投、清流資本、元璟資本等。
陳建宇的另一重身份,是清華大學交叉信息研究院的助理教授和博士生導師。在做出令自己滿意的產品後,這位低調的年輕科學家,決定首次出來對話。
陳建宇真正為之自豪的,是他們的第六代人形機器人 STAR 1 實現了室外真實場景下 3.6m/s 的最快速度。" 即便是特斯拉的擎天柱機器人跑得也沒我們快。" 陳建宇説。
據悉,星動紀元采用了端到端的 AI 路徑,在這一模式下機器人通過強化學習的 AI 方法,會模仿人跑步的形态,跑步時雙手也會微微擺動保持平衡。
2022 年,陳建宇就打造了小型人形機器人的原型機,那時他就跟姚期智院士多次交流,怎麼去做人形機器人。并在 ChatGPT 發布不久,做出了全球最早的大語言模型結合人形機器人的工作。
能夠在早期捕捉到大模型帶來的技術變革,與陳建宇的經歷高度相關:與行業一些從計算機視覺轉向機器人領網域的路徑不同,陳建宇是典型的具身智能原教旨主義者——從清華大學本科、加州大學伯克利分校讀博、到畢業後在清華大學交叉信息研究院任職助理教授,他一直在做機器人的學術研究。
雖然這個賽道也有着不少野路子玩家,但陳建宇認為,沒有強大的學術背景,很多前沿的事情可能都想不到,或者只能看到較為成熟的方法。
他現在比較看好的路線是 " 打通端到端 "。不能分開做感知網絡和決策網絡。" 這樣相當于多個小模型堆在一塊,無法像大模型那樣 scale。" 雖然具身智能玩家都在下注端到端,但 " 真正能做端到端的不多,包括一些知名創業者做的方案很多都是直接用 GPT 的。"
相對于大腦(語言影像處理能力)或本體,陳建宇認為 " 小腦 "(物理互動)是目前具身智能發展的限制條件,後續的工作 " 會把大腦和小腦統一 ",這就像人類的思維和動作本身是一體化的。陳建宇的做法是從最核心的小腦部分做 scale up。先把物理層面的互動能力做得很強,随後邏輯思考等抽象能力也會逐步增強。這是陳建宇從 day one 就計劃好的路徑,也是與其他公司路線上最大的不同。
關于人形機器人的形态,行業内不同公司各有自己的堅持,有種聲音是 " 沒有腿的輪式機器人不能算人形機器人 ",也有堅持輪式形态的公司認為 " 現階段雙腿不是最優解 "。
在星動紀元的實驗室裏,虎嗅看到了陳建宇在這個問題上的解法——将人形機器人模塊化,這樣既可以接入雙腿,也可以接入輪式。陳建宇将這些不同的模塊形容為工具箱," 工具箱足夠多的時候,可以快速拿出不同的工具,來匹配更多的商業場景 "。
目前很多人形機器人公司都在尋找商業化場景,但陳建宇認為 " 不要沒有找到 PMF 的時候,為了量產而量產。如果還沒有找到用户,就先生產一堆機器人,可能生產出來又是一堆廢銅爛鐵。"
以下是虎嗅與陳建宇的對話,部分内容經過了優化和調整:
從象牙塔到商業世界
虎嗅:創辦星動紀元之前你一直都在清華做學術研究。可能相對來説學校環境更像象牙塔,當時為什麼要做這樣的一個轉變呢?
陳建宇:一開始确實是在實驗室裏以課題的形式做的。22 年我在清華大學交叉信息研究院做人形機器人研究,但同時也在思考發揮機器人的更大價值——能生產產品的商業化價值。
不僅是在實驗室做幾個酷炫的 demo,而是能做出強大影響力的產品,讓很多人用起來,這個事情我會覺得非常激動。
另外,學校資源有限,特别是工程方面。做機器人硬體需要一個非常龐大的工程團隊。綜合考慮之下我決定開始做這個公司。
虎嗅:跟在學校的不同是什麼?
陳建宇:某種程度上,學校更自由一些,只需要做一個新的東西,設計一個簡化的實驗,然後跑通了,就能發論文。
公司的限制會更多,需要真正創造社會價值。會有客户提出的客觀指标,如果用發論文的方法來做產品的商業化,是不行的。
但在商業層面也會更豐富,因為能聚集更多資源更大團隊去做,所以這個事情的 scope(範圍)可以更大一些。
虎嗅:這個過程中,遇到了哪些挑戰?
陳建宇:挑戰非常多,從融資、組建團隊、管理到制定技術和商業化目标。還得想清楚未來這一行可能會怎麼發展,行業裏面哪些是朋友,哪些是競對,怎麼去處理。這些情況在學校是不會面臨的。
虎嗅:目前為止做過的最大膽的決定是什麼?
陳建宇:之前的都不算特别大膽,現階段我們的研發資金投入不算太多,即使有些路線需要糾偏成本也不高。但在商業化之後會可能會面臨生死決策時刻,可能有造一萬台機器人的計劃要拍板,算下來可能一下就要花幾個億。
所以我沒有急于在這些方面沒 ready 的情況下,就馬上大力鋪開,否則試錯成本風險非常高。
虎嗅:現在存在一種刻板印象,好像草根出身的動手能力特别強,學霸類型的動手能力弱一點。你怎麼看這個問題?
陳建宇:要看是什麼動手問題,工程出身的去畫機械結構肯定更熟練。如果是動手寫 AI 代碼,我在博士階段發的十多篇論文,全程代碼都是自己寫的。
而且我認為到了這個層面,相對動手能力,能有 vision 帶着下面的人把東西快速做出來更重要。
當我談跑步時我談些什麼
虎嗅:現在星動 STAR1 的跑步速度達到什麼水平了?
陳建宇:全球範圍來看,這是跑得最快的機器人。STAR1 實現了室外真實場景下能跑到 3.6m/s,這相當于人類跑步配速 438。
但這還沒有完全發揮出硬體的極限, 為了保持穩定性我們的算法實現了 60% 的功力。理論最高能達到 6 米每秒,超過馬拉松冠軍。
虎嗅:為什麼要做去提升機器人跑步的能力?
陳建宇:跑步是機器人核心的共性的能力,我們瞄向一個更大的目标是功能通用,我們希望它是一個通用人形機器人。未來在各種復雜環境下都能夠去執行各種不同的任務。
虎嗅:但也有聲音認為在工廠等平坦地形場景,輪式就可以滿足要求。
陳建宇:所以我們做的是模塊化,有一個機器人工具箱,這樣機器人下肢既可以接入雙腿,也可以接入輪式,工具箱足夠多的時候,可以快速拿出不同的工具,來匹配更多的商業場景。
虎嗅:你們會重點關注腿部嗎?
我們不會完全偏重腿部、靈巧手或者輪式的某一種,只是在具體產品上可能會有形态的不同,比如我們有的產品是雙足,有的是輪式。
虎嗅:我發現跑步時 STAR1 雙手也會微微擺動保持平衡。
陳建宇:這是機器人強化學習的結果,一方面會模仿人跑步的形态,另一方面機器人會根據自身的質量和風格自主學習出适合的幅度。人為給的東西比較少一點。
虎嗅:從 day one 你們用的就是 AI 的方法嗎?
陳建宇:當然最開始第一步讓他走起來,我們也有用模型控制的方法。但是其實從最初的時候,我就比較堅信一定是用 AI 把它走通。
虎嗅:你怎麼看特斯拉的擎天柱在 "We,Robot" 發布會上展示的互動效果?
陳建宇:在操作層面還是比較領先。另外機器人能夠在現場實時互動,基本沒出差錯,説明硬體的可靠性挺不錯的。
但這是通過員工遠程控制搖操作實現的。因為它的語言互動實時性,是連 GPT-4o 也達不到的程度,即使是特斯拉也做不出一個比 GPT 還強的大模型。
虎嗅:現在大語言模型 Scaling 曲線已經趨于平緩了,具身智能 Scaling 曲線目前處于哪個階段?
陳建宇:非常初期,介于 Transformer 到 GPT1.0 之間。
虎嗅:在大語言模領網域,國内公司的技術路線基本上都是摸着 OpenAI 過河,在具身智能領網域也是這樣模仿國外先進路線嗎?
陳建宇:相對比較少。雖然 Google 在具身大腦領網域比較領先,但他們也沒探到 GPT1.0 那一步,所以缺乏可以直接復用的方法,還是需要從第一性原理去想該怎麼做。
要有自己的想法和思路,如果直接抄,可能就抄錯了。
虎嗅:國内外差距是怎麼樣的?
陳建宇:大家都還在探索,也許特斯拉在某方面會領先一些,但他們也還沒有看到那個最終答案。
這個領網域目前并沒有如 OpenAI 般不可超越的存在。他們是可以超越的。
思而不學則殆
虎嗅:現在大模型在具身智能領網域的應用,跟你最初去探索的時候相比有什麼區别?
陳建宇:之前很多人想的是,把大模型接到機器人上,用大模型思考能力,它就變聰明了。但小腦(物理本體互動)依然還是不智能的,不能算整套數據驅動,沒法通過 scale 變強。
虎嗅:所以你認為不智能的小腦是目前具身智能發展的限制條件?
陳建宇:對,從通用的這個角度來看,大腦(語言影像處理能力)更接近人的通用智能,但是小腦(物理互動)這部分還不夠。
小腦也需要用類似大模型的方法,來增強通用性。小腦是跟本體物理互動的層面,所以説需要彌合這個 gap。如果小腦能力不提升,始終還是停留在語言模型的範疇。
虎嗅:但現在研究小腦的公司團隊不是很多。
陳建宇:原因可能是,第一,小腦研究還是需要比較高的學術能力。第二,有些純 AI 出身的團隊,可能更重視大腦的研究,而怎麼跟物理互動,是做機器人團隊在琢磨和研究的問題。
虎嗅:在小腦上的研究是我們跟其他公司路線上最大的不同嗎?
陳建宇:對,我認為是最核心的地方。而且後面的話我們會把大腦和小腦要統一。就像人類的思維和動作也是天然統一的,邏輯思考和行為本身就是一體化的。
虎嗅:怎麼去做大小腦統一的?
陳建宇:我們會一步一步做,因為直接把整個事情全做完,難度非常高。我們先從最核心的小腦部分做 scale up。先把物理層面的互動能力做得很強,然後邏輯思考等抽象能力也會逐步增強。
就像一個機器人沒法做動作,思考再多也只是一堆廢銅爛鐵。
虎嗅:從什麼時候開始決定要走這條路線?
陳建宇:從本科的步态規劃控制,到讀博時研究無人駕駛的行為決策規劃,其實我一直都在研究小腦及其到大腦的延伸。
虎嗅:還有哪些你現在比較看好的技術路線方向?
陳建宇:大的方面來説,要打通端到端。不能做個感知網絡,再做個決策網絡,再加上很多動作網絡。這樣相當于多的小模型堆在一塊,不能像大模型那樣 scale。
虎嗅:現在大家都在做端到端?
陳建宇:其實能做端到端的不多,李飛飛做的很多工作都是直接調用 GPT 的。
具身之腦的覺醒
虎嗅:2023 年的時候你做出了世界上第一篇大語言模型結合人形機器人的學術工作,為什麼當時會想到用大模型去做這件事?
陳建宇:這可能跟我的經歷有關。
目前具身智能玩家中主要有兩個流派,一部分是計算機背景——大部分偏視覺。在機器人和 AI 開始交叉匯聚的時候,這部分人開始關注機器人的問題。但此前的的 AI 和機器人,是兩個領網域。
我是從正統機器人 " 坑 " 裏出來的,我所在的學科領網域是專門研究機器人的。在清華大學本科時,我就開始研究機器人的機械設計。在美國加州大學伯克利分校讀博時,研究過機器人的底層控制。我的視角一直專注機器人問題,以及現有的各學科領網域怎麼跟它融合。
所以我會對這個更敏鋭一些。在 2022 年的時候,ChatGPT 還沒發布,我就想做機器人的通用智能。
虎嗅:2022 年時大模型還沒有顯現出價值,當時用的是什麼方法?
陳建宇:對,當時沒有大模型這樣比較強大的工具,所以我當時用的是之前的強化學習方法。
Transformer 它最大的意義是他能 scale,達到通用。當時是有看到 Transformer,但還沒有 scale 只是小模型。在當時看起來沒有任何 improvement 的效果。
虎嗅:為什麼那時候開始提具身智能的概念?
陳建宇:之前也有一些詞,我們一般叫 Robert learning(機器人學習),但這個詞我感覺不夠酷。我還是想凸顯智能,所以比較喜歡選用具身這個詞。
虎嗅:當時就笃定大模型在具身智能上是能 work 的嗎?
陳建宇:是的,當時看到它在語言這個領網域已經證實了能 work,至少目前來看它是唯一可能幫助我們達到通用的路徑,而且是非常有希望的。
虎嗅:通過大模型來達到具身智能的通用,是業界的共識嗎?
陳建宇:是這樣的,沒有其他任何方法達到了這樣通用智能的水平。或者説我們也沒有别的選擇。
現在已經在語言領網域證明了,近期也拓展到多模态領網域。所以其實現在信心會增強。
機器人是更全的模态,不光有語言數據、行為動作,還有觸感、聲音、進入物理世界的互動。這是一個全新不同的方式。
虎嗅:具身智能最終形态是人形嗎?
陳建宇:一定有人形,但是也會有别的形态,比如在某些場景一個機械臂就做完了。
人形做出來之後,它的技術可以向下兼容,去輻射到機械臂、靈巧手和假爪。相比通過假爪搖操作的采集數據方法,人形采集數據效率更高,網上人形操作的視頻數據更多,這樣我們能用的數據也更多。
虎嗅:你認為最終機器人是會做成通用還是不同領網域的專用?
陳建宇:我們的技術始終是會做一個通用的機器人,但最終落地應用的時候它可能是一個專用的形态。就像大模型有通用的基座模型,也可以在某一個垂網域裏面再調優。
虎嗅:現在機器人有必要考慮量產的問題嗎?
陳建宇:不要沒有找到 PMF 的時候,為了量產而量產。如果還沒有找到用户,就先生產一堆機器人,可能生產出來又是一堆廢銅爛鐵。但是咱們要做好量產的準備和試產工作。
虎嗅:但是有些公司聲稱,很早之前就有客户找他們生產。
陳建宇:我們也接到很多需求,很多他説想在這個工廠裏增加一千個機器人。但需要做到機器人功能足夠強大,且成本足夠低,才能成立。不然工廠也不會買單的。
虎嗅:未來星動紀元想成為一家什麼樣的公司?
陳建宇:希望能成為像機器人界的蘋果。
蘋果做出了颠覆式的產品。其實機器人還沒有出現真正廣泛應用的產品,我認為機器人存在這樣的機會,可能也會是颠覆式的創新。
虎嗅:成立星動紀元以來最大的感悟是什麼?
陳建宇:找到了一種平衡。
既要保持開放的心态,不能説太自大,這樣的話會可能會阻礙你成長。但另一方面你又需要堅定一些,特别是在正确的事情上。
虎嗅:星動紀元是清華大學交叉信息研究院孵化的,姚期智老師在其中提供了什麼樣的支持和幫助?
陳建宇:他提供了很多資源和指導。2022 年我就一直跟他讨論,怎麼去做人形機器人。
虎嗅:你們達成的共識是什麼?
陳建宇:我們都相信,人形機器人終将改變世界。
(Tips:我是虎嗅科技醫療組的王欣,關注 AI 及創投領網域,行業人士交流可加微信:13206438539,請注明身份。)