今天小編分享的科技經驗:阿裡大模型讓照片跳舞!朋友圈掀起鬥舞潮,歡迎閱讀。
只要一張照片就能生成一段舞蹈視頻,又一個大模型應用出圈!
【CNMO 新聞】2024 年第一個工作日開始,兵馬俑、馬斯克以及各地網友跳科目三和網紅舞的視頻就陸續在國内社交媒體和朋友圈刷屏。這些大約 10 秒左右的視頻都不是真人出鏡,均由大模型生成,這種低門檻的「跳舞」方式引發了網友的廣泛體驗,掀起了一波鬥舞潮。各路網友金句頻出:AI 治愈了我的四肢不協調、科目三的風吹到了考古界、再也不用擔心跳科目三崴腳。
這是阿裡雲通義千問 APP 上線的免費功能,在通義千問 APP 内輸入 " 通義舞王 "、" 全民舞王 " 等口令後,即可進入體驗頁面。用戶按照提示要求上傳照片後,十幾分鍾即可生成神形兼備的舞蹈視頻,生成的視頻能較好地保留原形象的面部表情、身材比例、服裝以及背景等特征。目前,通義千問首批為用戶提供了科目三、蒙古舞、劃槳步、鬼步舞等 12 種熱門舞蹈模板。
據悉,該功能背後的算法為阿裡通義實驗室自研視頻生成模型 Animate Anyone。早在 11 月底,該研究便在推特、Youtube 等海外社交媒體平台爆火,相關視頻播放量超 1 億,項目在 Github 上的 Star 短短數日就超過 1 萬,是近期大模型領網域最受歡迎的大模型算法之一,國外開發者和網友集體稱贊該算法效果,并發出 " 開放體驗入口 " 的呼聲。
除了驚豔的生成效果之外,該算法的技術路線也被廣泛關注。視頻生成是大模型領網域最熱門的研究方向之一,谷歌、Meta、Runway 等國外科技公司都在積極布局,但一直以來,人物形象的視頻生成面臨諸多技術挑戰,例如人物形象一致、動作流暢可控、時序無瑕疵的人物動作視頻。
根據公開論文顯示,Animate Anyone 集成了多項創新技術,引入了 ReferenceNet,用于捕捉和保留原影像信息,可高度還原人物、表情及服裝細節;此外,該算法使用了高效的 Pose Guider 姿态引導器 ,保證了動作的精準可控;另外,通過時序生成模塊,有效保證視頻幀間的連貫流暢性。在相同數據集的測試下,Animate Anyone 的性能表現顯著優于國内外同類模型。
今年 9 月,通義千問成國内首批通過備案的大模型,通義千問 APP 上線後功能持續更新,目前可提供文本對話、語音對話、翻譯、PPT 大綱助手、小紅書文案、視頻生成等幾十項功能。