馬斯克也逃不過「科目三」，阿裡這個應用都要把外國人饞哭了

今天小編分享的科技經驗：馬斯克也逃不過「科目三」，阿裡這個應用都要把外國人饞哭了，歡迎閱讀。

最近，不少社交平台都被一種名為「科目三」的舞蹈視頻刷屏了，搖花手、半崴不崴的腳，配合着節奏鮮明的音樂，這一舞蹈動作遭全網模仿。

對于有點舞蹈功底的人來說，學會「科目三」并不是一件很難的事，但對于四肢不是很協調的小夥伴而言，這可真是有點難度了。為了讓廣大網友學會這個舞蹈，還有人出了保姆級分解教程，聲稱幾分鍾速成大搖子。

其實，對于想要跳舞的你來說，根本不用真人出鏡，一張照片就能化身舞蹈達人。不信，你看，一位小姐姐正在你面前大秀舞技。

你以為這是真人在跳舞，不，不，不！眼見不一定為真，其實這是根據照片生成的，而且只需一張照片就可以搞定。

現在技術已經發展成這樣了嗎？跳舞不需要真人，這是哪家出的黑科技，期待值直接拉滿。

不賣關子了，謎底揭開，這項研究來自阿裡。

在剛剛到來的 2024 年，阿裡通義千問 APP 上線圖片生成舞蹈功能，用戶只需要輸入一張圖片，就能生成爆款舞蹈視頻。

不管是科目三，還是鬼步舞、兔子舞 …… 練習時長無需兩年半，通義千問分分鍾幫你搞定。有了它，讓你瞬間變身舞蹈達人，再也不用擔心自己沒有舞蹈功底了。

操作過程也非常簡單，打開通義千問 APP，然後在對話框中輸入咒語「全民舞王」或者「通義舞王」，在彈出的界面中就可以體驗了，最重要的是，不需要你花一分錢，完全免費使用！

該功能一經上線火爆國内外，在 AI 圈可謂是掀起了一波全民熱舞小高潮，眾多研究者紛紛玩了起來。X（原推特）上關于這項研究的浏覽量動不動就上萬。

不用自己出鏡，上傳照片就能化身舞王，這樣的黑科技誰不想試一試呢。隔壁小夥伴的媽媽都羨慕哭了，老師，我們家子涵怎麼不會。

其實，不管是子涵、還是子豪，不管是真人、還是紙片人，甚至是雕塑，通義千問都能讓他們舞起來，簡單到只需三步：

第一步選擇自己喜歡的舞蹈種類，通義千問 APP 内置了不同的舞蹈模板，包括 DJ 慢搖、鬼步舞、蒙古舞、科目三、劃槳步、兔子舞等十多種舞蹈，選擇你喜歡的其中一種作為目标舞蹈。

第二步上傳圖片，圖片的要求是全身照、正面站立、全身無遮擋、無俯仰角，圖片的分辨率不能低于 500×500。你可以使用手機裡保存的照片，也可以是現場拍攝的照片。此外，通義千問 APP 裡還内置了照片模板供大家使用。

通義千問 APP 對上傳照片的一些要求

最後一步，點擊「立即生成」就可以了。

誰能想到，生成舞蹈視頻已經簡單到這樣了。由于人人都可免費使用，一經上線，受到廣大網友追捧。

效果到底怎麼樣，我們接着往下看。

誰都能跳？

我們先從古代人開始吧，這些只在歷史文獻中出現的人物，跳起舞來會是什麼樣子呢。想必大家都對桃園三結義的故事很熟悉，不知道三兄弟一起舞蹈是怎樣的畫面。

這不劉皇叔打了一輩子仗，馬上就要來享受享受。接着奏樂接着舞，這波科目三跳得理所應當。由劉關張三兄弟發起的「全民舞王」比賽正式開始，你來品一品，誰跳得最好。

哈爾濱不只有聖索菲亞教堂升起的月亮，背上小書包出遊的企鵝，還有會跳兔子舞的夢露。東北 DJ 大哥見了都得誇一句，這兔子舞真不賴啊。

即使脖子上已經插了 99 根麻醉針，依然能跳最甜的舞。毛利老弟給大家帶來《只想對你說「愛你」》，這靈活的身姿，妖娆的步伐，有沒有讓你心動呢？

2000 多歲的高齡選手高級軍吏俑扭起了秧歌。新的一年已經到來，他用舞蹈傳遞喜氣。

鋼鐵俠上演一段極樂勁舞，舞蹈動作不輸真人，邁着歡快的小步伐，還以為是真人扮演的呢：

玲娜貝兒跳起西網域慢搖，胯部擺動流暢，手臂在空中跟着音樂節拍不停的變化：

這種大秀舞技的時刻，怎麼少的了馬斯克馬老板，誰看了不說一句，馬老板的科目三确實跳的很妖娆：

跳起蒙古舞來，馬老板也是有模有樣：

上線即爆火的 Animate Anyone

通義千問之所以能夠生成如此絲滑的舞蹈視頻，背後離不開阿裡在視頻生成領網域的深耕。不久之前，研究團隊提出了一種名為 Animate Anyone 的算法，論文公布之初在國内外就掀起了一波不小的讨論高潮。短短一個月，Animate Anyone 在 YouTube 單個視頻播放量已經高達 16 萬次，而且這只是其中一位油管博主的視頻播放量，如果統計全網，将會是一個很大的數字：

在這個視頻的評論區，大家也是滿屏的贊嘆：「太驚人了。」

「人工智能的能力太神奇了，」之後忍不住又補了一句，「真的太神奇了。」

截至目前，該項目 GitHub 星标量已經達到 11 k 多。

說到視頻生成，從 GAN 開始，研究者們致力于将影像進行動畫化以及進行姿态遷移的探索，然而，生成的視頻仍然存在局部失真、細節模糊、語義不一致和時序不連續等問題。

為了解決上述問題，阿裡提出了專為角色動畫量身定制的新穎框架 Animate Anyone，它能無縫地把靜态影像轉變成動态的角色視頻。通過巧妙設計的 ReferenceNet、輕量級姿态引導器和時間建模方法，Animate Anyone 解決了影像到視頻生成中的細節不一致和運動不連貫等問題。Animate Anyone 框架如下：

Animate Anyone 具有以下特點：

首先，它有效地保持了視頻中人物外觀的空間和時間一致性；

其次，它生成的高清視頻不會出現時間抖動或閃爍等問題；

第三，它能夠将任何角色影像動畫化為視頻，不受特定領網域的限制。

為了讓大家更好地理解，我們以示例來說明。下圖中同樣是驅動一張照片動起來，直觀來看，DreamPose 和 BDMM 在保留服裝的精細紋理細節方面存在缺點，能看到明顯的運動不連貫、閃爍等問題；而 Animate Anyone 就像真人模特在運動一樣，衣服紋理保持良好，就連腿部衣裙的開衩都精準到位，把細節直接拉滿了。

通過上述示例我們可以看出，由 Animate Anyone 驅動的視頻生成技術，更好的保持了時序上的連續以及合理性，視頻中人物的動作絲滑連接，沒有跳躍或不自然的變化；生成的視頻質量也非常逼真，人物的影像與視頻内容能夠保持高度的一致性；此外，視頻的風格和色彩與原始圖片一致性也較高。

結語

剛剛過去的 2023 年是人工智能技術迅速發展的一年，仿佛一刹那間，AI 就搖身一變，成為一個「六邊形戰士」，從一開始的會寫小說、寫代碼、生成高清大片，到現在已經發展成生成視頻了，AI 的發展速度已經超乎大多數人的想象。

作為引領新一代技術潮流的科技大廠們，自然是緊緊抓住機遇，不斷進行創新與突破，給人們帶來一次又一次的驚喜。

除了大語言模型繼續刷屏外，視頻生成技術也取得了重大進展，國外如 Runway 更新了 Gen-2 模型，帶來了電影級别的高清晰度；Meta 發布視頻生成模型 Emu Video，其視頻的動态性比 Gen-2 有明顯的提高；經典的文生圖模型 Stable Diffusion 的公司 Stability AI 也發布了視頻生成模型 Stable Video Diffusion ( SVD ) 等等。國内也在迎頭趕上，如字節發布 Magic Animate，華為提出的 Animate124 模型等，都在視頻生成領網域進行不斷的創新。

同樣的，阿裡也在視頻生成領網域交出了一份滿意的答卷，将 Animate Anyone 集成到通義千問 APP，使得人人都可以進行無門檻的舞蹈合成，或許用不了多久，這一輪 AI 突破帶來的變革将會觸及更多人，我們将見證生成式 AI 對生產力和創新的颠覆。

在這場變革中，我們相信阿裡會帶來更多令人驚嘆的應用。