今天小編分享的科技經驗:Meta發布Sapiens視覺模型,讓 AI 分析和理解圖片/視頻中人類動作,歡迎閱讀。
IT 之家 8 月 24 日消息,Meta Reality 實驗室最新推出了名為 Sapiens 的 AI 視覺模型,适用于二維姿勢預估、身體部位分割、深度估計和表面法線預測 4 種以人為中心的基本視覺任務。
這些模型的參數數量各不相同,從 3 億到 20 億不等。它們采用視覺轉換器架構,任務共享相同的編碼器,而每個任務有不同的解碼器頭。
二維姿勢預估:這項任務包括檢測和定位二維影像中人體的關鍵點。這些關鍵點通常與肘、膝和肩等關節相對應,有助于了解人的姿勢和動作。
身體部位分割:這項任務将影像分割成不同的身體部位,如頭部、軀幹、手臂和腿部。影像中的每個像素都被歸類為屬于特定的身體部位,這對虛拟試穿和醫學成像等應用非常有用。
深度估計:這項任務是估算影像中每個像素與攝像頭的距離,從而有效地從二維影像中生成三維影像。這對增強現實和自動駕駛等應用至關重要,因為在這些應用中,了解空間布局非常重要。
表面法線預測:這項任務是預測影像中表面的方向。每個像素都會分配一個法向量,表示表面朝向的方向。這些信息對于三維重建和了解場景中物體的幾何形狀非常有價值。
Meta 公司表示該模型可原生支持 1K 高分辨率推理,并且非常容易針對個别任務進行調整,只需在超過 3 億張野生人類影像上對模型進行預訓練即可。
即使在标注數據稀缺或完全是合成數據的情況下,所生成的模型也能對野生數據表現出卓越的泛化能力。
IT 之家附上參考地址