Meta用頭顯實現全身動作追蹤！沒有腿部信息，也可準确估計姿态

今天小編分享的科學經驗：Meta用頭顯實現全身動作追蹤！沒有腿部信息，也可準确估計姿态，歡迎閱讀。

Meta 用頭顯整新活了！

這不，就在最新被 SIGGRAPH 2023 頂會收錄的研究裡，研究人員展示：

僅憑 Quest 傳感器和周圍物體環境的互動，就可以捕捉一個人的全身運動！

即使是和復雜環境進行互動也不在話下。

輸入的時候還是這樣嬸兒的，只有三個坐标架（沒有攝像頭）：

加上虛拟角色後，胳膊腿的動作都有了（綠點是環境高度）：

看到腿部的動作效果，網友直接裂開：

這腿部的估計把我驚呆了！

還沒完！在沒有任何關于下半身信息的情況下，它還可以踩箱子，跨過障礙物，精準跟蹤人體動作。

通過物理模拟，無需任何後期處理，就能夠生成效果不錯的互動場景：

一個傳感器也能行！去掉搖桿後，雖然手的動作是随機的，但走起路來也還是有模有樣：

網友看完後滿臉不可思議：

有沒有考慮與 Metahuman 系統結合，這樣用戶就可以使用簡單的設備在家中創作出包含身體和面部表情完整的數字人動畫了！

目前，現有的大多數運動跟蹤方法除了腳與地面的接觸外，都盡量避免了與環境的互動。

那麼，這項研究是怎樣利用環境互動進行運動跟蹤的呢？

用包含環境互動的數據來訓練

我們日常生活中與環境進行互動是不可避免的。

由首爾大學（SNU）和 Meta Reality Labs Research 的研究人員共同完成的這項工作，通過強化學習展示了如果将傳感器與物理模拟和環境觀測相結合，即使在高度受限制的環境中，也能復現逼真的全身動作姿态。

要做到這一點，首先需要考慮三種方法，包括：

合成具有互動的動作、從稀疏傳感器輸入進行運動學跟蹤以及基于物理的運動追蹤。

本文研究人員使用的策略只需要頭顯和搖桿的姿勢作為輸入，沒有關于下半身的信息，并且沒有借助人力來穩定虛拟角色。

該研究中物理模拟可以自動執行跟蹤動作姿态所需的各種約束，使其能夠實現高質量的互動動作，而不會出現常見的穿透或接觸滑動等問題。

并且使用深度強化學習（Deep RL）學習控制策略，用減小模拟的虛拟角色和用戶輸入之間的差異來使誤差最小化。

如上圖所示，虛拟的仿真角色具有 32 個自由度 ( degrees of freedom ) 和 18 個關節，并由關節力矩驅動，環境物體也用一些基本幾何形狀進行了仿真復制。

真人在與環境物體之間發生接觸時，具體時間和位置将會被标記出來，被用作監督信息。

這樣将場景觀察結果納入策略中，就可以利用環境進行運動跟蹤。

比如說，坐在椅子上會產生椅子的反作用力，從而可以知道要将腿部抬起；當踩在放在地面上的盒子時，也會有盒子的反作用力；還可以通過接觸後的反作用力來操縱物體。

有意地與環境產生接觸力，有利于跟蹤。但另一方面，如果接觸會幹擾追蹤，控制策略也可以避免與環境的接觸。

比如在虛拟仿真環境中放置了虛拟盒子。控制策略可以學會通過高度圖（綠點）觀察周圍的場景，并在跟蹤人的傳感器數據時抬高腿以避開障礙物。

當然要達到這種效果，還需要注意三個關鍵點：适當的環境觀察表示、訓練中的接觸獎勵（不僅僅包括腳部，還包括其他身體部位），以及訓練過程中對象位置的随機變化。

研究人員注意到，在沒有接觸獎勵的情況下，成功率會明顯降低。在沒有場景随機化的情況下，性能也會顯著下降。

坐下，起不來

雖然在大多數情況下，這項研究所展示的動作跟蹤效果很好，但也有跟蹤失敗的情況：

對于從地板上起身這樣的任務，由于沒有使用任何人為力量，該控制策略似乎很難學好這種需要仔細協調接觸的行為。

并且，虛拟角色有時會失去平衡，一旦摔倒中斷，很可能無法繼續爬起來跟蹤。

還有一點不得不提，當前的系統需要為每種互動類型訓練單獨的策略。

研究人員表示：

理想情況是能夠學習一個涵蓋更廣泛動作庫的單一跟蹤器。這可能需要更復雜的神經網絡模型，如專家混合模型，或更長時間的訓練和更大規模的數據集。

另一個有前景的方向是将我們的系統擴展到包括動态移動物體的未知場景。在線系統識别可以作為系統的一部分進行結合。

參考鏈接：

[ 1 ] https://arxiv.org/abs/2306.05666（論文地址）

[ 2 ] https://twitter.com/awinkler_/status/1673133836585291776