今天小編分享的社會經驗:月薪5000,我給人形機器人當“老師”,歡迎閲讀。
在春晚過後,最近宇樹機器人又火了一次。
上周,宇樹機器人發布了一條機器人轉身踢腿,打了一套功夫拳的視頻,發布一周就收獲了快五萬的點贊。
一套功夫打下來,機器人占領世界似乎已經可以期待了?
在機器人越來越像人的背後,可能卻是有着一批人在 " 負重前行 "。
近期,極客公園發現,招聘軟體上已經悄悄上架了一批工作信息。員工的唯一工作,就是教機器人如何更像人。
一、新物種工作
筆者是在去年,開始發現各大一線城市的招聘平台正在悄悄上架一批新的工作。
标題為數據采集專員,或者更直接的——機器人數據采集員,這個 " 新物種 " 工作,是完全是為機器人提供服務的。
工作描述很簡單——就是操作機器人,做一些人類日常會做的行為。
一個工作描述這樣形容道:控制機器人進行操作,如疊衣服、系鞋帶、物品收納等日常生活操作。
而另一個工作描述則這樣寫道," 根據桌面零件分揀 " 的場景,操作動作捕捉服來操控機器人的動作。
一些其他類似的工作描述中,還出現了不暈 3D,身體強壯,了解一些編程基礎之類的要求。
這到底是怎樣的工作?
筆者潛入了一個動作捕捉的招聘群中,和招聘者進行了一次聊天。
筆者很快了解到,該招聘崗主要是為國内某機器人公司進行服務,采集機器人的動作數據。
主要分為兩種崗位,
一種是帶着動作捕捉設備,遠程操作機器人——工作人員站在機器人旁邊,拿取面前的東西,而通過動作捕捉設備的傳輸,機器人會擺出和幾乎一樣的動作拿去機器人面前的東西,這在機器人領網域的術語叫做遙操作。過去在新聞中經常出現有人操作機器人進入危險環境作業,就是使用的遙操作方式。
而另一種則是面對螢幕操作機械臂。仍然是工作人員操作機械臂,而螢幕裏的機械臂會做出一樣的動作,只不過實體空間中并沒有真正的物品可以拿取,工作人員操作機械臂的目的是讓螢幕裏的機械臂拿取虛拟空間的物品。有點像是隔着螢幕操控抓娃娃機。
兩種工作對操作人員的要求都不高,都是做出最基本的人類動作就可以。因此招聘對學歷等硬性條件并沒有要求。
不過有趣的是,第一類崗位,對操作人員的身材倒是有要求:身高 165~170 左右,體重 62kg 内,不能有肚子,男生。第二類崗位則男女不限。
筆者又查看了其他公司的類似的崗位,工資在 5000-10000 不等。而這家公司,則是按天計費,每日 200 元。
招聘者特别問筆者,你是計算機專業的嗎?
在得到否定回答後,招聘人員大方提起,現在有一個領網域正在 " 崛起 ",就是人工智能!不要看目前只是一個兼職崗位,未來可能會變得非常重要。
當筆者問起,會不會已經招滿了,招聘人員則表示,位置很多,第一批就有幾百人,而後面北京、上海、廣州,都在陸續開類似的崗位。
二、賣動作給機器人的工作,正在迅速擴張
賣動作給機器人?聽起來是一個很奇怪的事情。為什麼要這麼做?
帶着疑問,筆者采訪了動作捕捉設備提供商諾亦騰的聯合創始人、CTO 戴若犁博士。
戴博士馬上肯定了這一趨勢的存在。" 是的,我們也觀察到了類似的現象。諾亦騰每年會賣出幾千套動捕設備,是全世界出貨量最大的動捕的設備提供商,在過去十年,賣給機器人企業的動捕裝備一直不超過我們出貨量的 5%,不過,事情在 2023 年發生了變化。" 戴博士表示。
戴若犁回憶道,一般而言,機器人企業采購動捕設備,通常用來操作機器人在危險地區進行一些特殊操作,這樣的需求不會很多,通常的采購都是一套兩套這個量級。
" 我們的設備算是全球性價比最高的了。不過即使這樣,貴的設備大概要十幾萬塊錢一套,便宜的設備也要大幾萬塊錢。只有應急演練、消防這樣的市政甚至軍事項目才會進行百套左右的采購。" 戴若犁表示。
而2023 年開始,諾亦騰開始逐漸接到越來越多的機器人企業的訂單,而且一次就是上百台——這些訂單,正是為前面所述的工作崗位服務的。
圖片來源:諾亦騰官網
2023 年,正是人形機器人開始爆發的前夕。
在 2023 年前,人形機器人在機器人的研究發展中,相對是一個異端。大部分需要機器人的能力,用一個專用的機械臂已經可以解決的很好,為什麼要研究人形機器人呢?筆者記得 2023 年,第一次來到世界機器人大會時,就曾經想過這個問題。
這背後,其實是技術的一次大跳躍。
2022 年 -2023 年,大語言模型的進展,第一次解決了機器人泛化性的理解和規劃。也就是説,現在和機器人説話,機器人第一次可以開始理解了,甚至可以自己對于語言背後的含義進行拆解,能夠意識到 " 拿桌上的水果 " 這件事指的就是拿起桌上的某個特定蘋果了。
這時候,人形機器人的卡點,出現了新的變化——不在于智慧,在于動作能力上了。在智慧能力出現突破之後,如果人形機器人的動作的泛化能力能夠進一步突破,那麼機器人的應用場景将有很大的擴展。
而在機器人的動作問題上,實際上則有兩個分支。
一個是運動能力(locomotion),我們也可以簡單理解為下肢動作。
一個是操作能力(manipulation),我們也可以簡單地理解為上肢動作。
我們看到的宇樹機器人,能打拳、能跳舞,其擅長的,正是機器人的 " 下肢能力 "。而正如我們所看到的,雖然仍面臨着承載力等一系列問題,機器人的 " 下肢能力 " 已經相對成熟。
而機器人的 " 上肢能力 " 則是完全另外的命題。
" 四足平衡或者雙足平衡,其實容錯能力是比較好的。你一步踩錯,它通過迅速的糾偏,通過一些算法其實可以迅速找回來的。但是泛化的抓拿和操控,容錯很低。細微操作這件事情,大家目前還是相信要大量的數據進去才能夠訓練好這個事情。" 戴若犁解釋道。
圖片來源:Figure 機器人官網
事實上,使用上肢進行靈巧操作,即使宇樹機器人,也很難做到可以在現實中實用的地步。
宇樹機器人在春晚的表演,使用的轉手絹的動作,使用了一個取巧的戰術——手絹是直接被固定在手部電機上進行高速轉動的,只是用黑布遮擋,營造出 " 隐形 " 效果。其技術難點在于機器人關節扭矩更高(能夠高速轉動手絹)和其全身動作中的平衡,而并不在于機器人本身的手部動作靈敏到完全類人。
而想要機器人的上肢動作真正類人,業界通常認為,需要模仿學習——通過模仿人類的動作。而這意味着,需要大量的相關數據。
與無處不在的互聯網數據相比,機器人的現存的相關數據則少得多。因此許多企業開始自建動作捕捉工廠,來為自家的機器人提供數據——也就出現了本文出現的新工作:賣動作給機器人的人。
這也帶來了動作捕捉設備本身的爆火,據了解,截止到 2024 年年底,諾亦騰來自機器人領網域的需求訂單獲得了超過六倍以上的增長。諾亦騰不但為機器人公司提供動作捕捉設備,也開始與不少廠商共建數據工廠,直接參與到具體的數據采集業務中。
三、采集數據的四象限
在招聘網站的調研中,筆者發現,雖然參與者做的任務都是類似的,招聘崗位的具體稱呼卻不同。
比如筆者試圖面試的公司,就分出了 " 動作捕捉崗 " 和 " 仿真崗 " 兩種不同的崗位。
筆者也就這兩種崗位的不同,采訪了戴博士。
戴若犁将目前獲得數據的途徑,按照是否采取動作是否由真人完成,采集的動作是否來自機器人本體等,抽成了幾個象限。
圖片來源:諾亦騰
對于機器人訓練而言,質量最高的數據,就是用遙操作采集的真實數據,也就是我看到的第一類型招聘的内容,被稱為 " 動作捕捉崗 "。
雖然使用的是動捕設備,但是實際上記錄的數據,并不是穿着動捕設備的工作人員身上的動作,而是動捕設備操作的機器人的動作。
機器人成功進行了一次抓取,設備就會記錄機器人胳膊的轉角等等。因此這樣的數據是質量最高的——數據直接從真實的機器人身上得到,甚至可以直接從你訓練的這款機器人中得到,數據十分準确。
這也就是為什麼這類的工作對工作人員的身高有要求:" 如果是一個兩米的人,但是機器人的胳膊只有一米六的人那麼長,那麼有可能出現機器人再往前夠,我手已經沒法再往前伸了的情況。" 戴若犁表示。
在這類的工作中,采集數據的手段,也會有一些略微的差異。
一些采集采用工作人員在一旁觀察機器人的動作的方式進行,是否成功直接由工作人員的肉眼判斷。
而另一些招聘要求中則提到使用 VR 設備。這種采集通常是讓操作機器人的人員,戴上 VR 眼鏡,直接以機器人的視角進行觀察——機器人本體上會存在視覺傳感器,戴上 VR 眼鏡的工作人員,相當于看到的就是機器能看到的狀态,這時候再進行遙操作,又能記錄下更多的數據。
遙操作的設備本身也不只有動作捕捉一種。筆者接觸到的另一個機器人公司,就自研了自己的外骨骼遙操作裝置。操作人員在身上背上外骨骼,做動作,将動作傳遞到機器人身上。該機器人公司表示,這種框架下能記錄到的關節轉角更多。
去年 8 月,特斯拉也傳出要招聘員工進行機器人的數據采集,招聘崗位提到要求員工每天步行超過 7 小時,攜帶重達 30 磅(約 13.61 千克)的設備,并長時間佩戴 VR 頭顯。
戴若犁推測,很有可能就是穿上了外骨骼設備進行數據采集。純動捕設備的話,全部加一塊不會超過 4 公斤。另一種可能就是工作人員要采集非常多的全身動作,直接把采集數據的電腦背在身上了。
" 雖然正常的走路動作,并不需要采集模仿學習的數據就能進行訓練。但是到俯身、協同等動作的時候,人的重心是怎麼動的,在一個動作中左右的重心是怎麼分配的,如果能夠獲得數據,對于機器人的運控仍然是有參考意義的。" 戴若犁表示。
有新聞表示特斯拉的人形機器人利用 Xsens 動作捕捉系統進行訓練|圖片來源:Youtube
質量次高的,則是半合成數據。也就是筆者看到的第二種崗位。
半合成數據中,動作仍然是由真實人類完成,但是收集的機器人數據,則不來自機器人本體,而來自于虛拟環境。
" 半合成數據是人操作虛拟世界裏的假機器人本體抓假杯子。在英偉達等公司的努力下,虛拟世界裏的,重力、力矩、摩擦、水流目前都已經能模拟得很好了。虛拟世界的機器人也在通過虛拟的電機運行,整套建模下來,就離現實很接近了。" 戴若犁表示。
使用虛拟的機器人,仍然需要克服機器人真實本體和虛拟本體的差異,專業術語叫做 sim-to-real gap,但作為一個性價比更高的方案,也在廣泛得到采納。
象限的另外兩端,則是目前技術難度更高的兩種采集方式。
一種是直接使用動捕設備,從真人身上采集數據。這種方法類似于遙操作,但是直接省去了機器人本體。相當于為真人進行了數學建模,再将這個數據再轉而用在機器人中。好處在于采集到的數據不需要考慮機器人本體構型的差異。
而另一只是純粹使用合成數據,不經過任何真人的參與。這種方法的好處是,可以大規模進行拓展,而不必受到任何現實世界的限制。
這兩種方式目前都有公司在進行探索,但并沒有成為最大範圍内的主流。如果只是某個機器人公司出資為自己的機器人收集數據訓練,針對性地收集某款真機的數據,仍然效果最好。每經過一層抽象,數據本身的準确性還是會受到一定損失。
這也就是為什麼筆者面試的機器人數據崗只設定了前兩種崗位的原因。
四、動作采集崗,或許未來将和語言數據标注崗一樣普遍
既然機器人數據這麼難收集,而筆者看到的招聘崗位的人員工資并不高,那麼為什麼不大批招聘,迅速采集到大量數據,馬上讓機器人落地使用呢?
在戴博士口中,筆者聽到了一個意外的答案。限制機器人企業無限采集數據的,更多的是成本。這個成本中最大的一部分,反而不是人力和采集設備,而是機器人本身。
他算了一筆賬:效果最好的采集機器人本體真實數據的采集席位,标配就是一個機器人本體,一套電腦裝備,一個動作捕捉人員,可能還需要一個操作電腦的數據采集人員。
其中最貴的,就是機器人的本體,目前機器人本體,基本上價格在幾十萬的量級。
動捕設備相比之下要便宜許多,在幾萬到十幾萬的量級——不過,普通的慣性動捕設備,是厘米級精度的。對于一般的動作采集是夠了,如果是精細的手部動作采集,可能還不夠,還需要增加光學動捕設備,這又是一筆支出。
圖片來源:Figure 機器人官網
而人員、場地費用,又是一筆支出。疊加起來,即使目前國際前沿的機器人企業,目前建設的機器人數據采集場地,量級也通常在小幾百的席位量級而已。
換成半合成數據的采集方式的話,其中最貴的機器人本體的成本能夠減少——在筆者接觸到的機器人中,半合成數據并沒有使用機器人本體操作,而是只是使用了機械臂,成本大大降低了。
這樣算下來的話,目前動作數據采集崗,似乎只是一個能夠在全世界範圍内提供幾千至幾萬個新興工作崗位。
不過,随着機器人技術獲得越來越多的資本關注,這一點未來或許會發生變化。
在傳統的人工智能領網域,這樣的事情已經發生過一遍。促成了現在全世界驚嘆的大語言模型,背後是無數的數據标注員,在标注哪些是人類想要的答案,哪些是人類會説的回答。
資料顯示,我國各地發展的數據标注基地,已經對就業產生了很強的影響。比如,日照數據标注基地,2024 年從業人員突破 1.1 萬人。
而在世界範圍内,數據标注行業,甚至產生了許多估值很高的企業,比如美國企業 scale.ai,2024 年估值已經達到 138 億美元。
随着人工智能的發展,使用人工智能進行數據标注已經成為慣常操作,但是數據标注的職業也沒有被取代,反而得到了越來越大的發展。
為機器人提供數據标注的職業,看起來才剛剛興起。
雖然機器人還沒有占領地球,但機器人已經開始 " 奴役 " 人類教他們幹活了。
未來,或許你的孩子的工作,就是教機器人如何切菜炒菜,而你,則在養老院裏,享受機器人為你做的飯。
本文來自微信公眾号:極客公園 (ID:geekpark),作者:Li Yuan,編輯:鄭玄,題圖來自:AI 生成