今天小編分享的科技經驗:馬斯克也逃不過「科目三」,阿裡這個應用都要把外國人饞哭了,歡迎閱讀。
最近,不少社交平台都被一種名為「科目三」的舞蹈視頻刷屏了,搖花手、半崴不崴的腳,配合着節奏鮮明的音樂,這一舞蹈動作遭全網模仿。
對于有點舞蹈功底的人來說,學會「科目三」并不是一件很難的事,但對于四肢不是很協調的小夥伴而言,這可真是有點難度了。為了讓廣大網友學會這個舞蹈,還有人出了保姆級分解教程,聲稱幾分鍾速成大搖子。
其實,對于想要跳舞的你來說,根本不用真人出鏡,一張照片就能化身舞蹈達人。不信,你看,一位小姐姐正在你面前大秀舞技。
你以為這是真人在跳舞,不,不,不!眼見不一定為真,其實這是根據照片生成的,而且只需一張照片就可以搞定。
>現在技術已經發展成這樣了嗎?跳舞不需要真人,這是哪家出的黑科技,期待值直接拉滿。
不賣關子了,謎底揭開,這項研究來自阿裡。
在剛剛到來的 2024 年,阿裡通義千問 APP 上線圖片生成舞蹈功能,用戶只需要輸入一張圖片,就能生成爆款舞蹈視頻。
不管是科目三,還是鬼步舞、兔子舞 …… 練習時長無需兩年半,通義千問分分鍾幫你搞定。有了它,讓你瞬間變身舞蹈達人,再也不用擔心自己沒有舞蹈功底了。
操作過程也非常簡單,打開通義千問 APP,然後在對話框中輸入咒語「全民舞王」或者「通義舞王」,在彈出的界面中就可以體驗了,最重要的是,不需要你花一分錢,完全免費使用!
該功能一經上線火爆國内外,在 AI 圈可謂是掀起了一波全民熱舞小高潮,眾多研究者紛紛玩了起來。X(原推特)上關于這項研究的浏覽量動不動就上萬。
不用自己出鏡,上傳照片就能化身舞王,這樣的黑科技誰不想試一試呢。隔壁小夥伴的媽媽都羨慕哭了,老師,我們家子涵怎麼不會。
其實,不管是子涵、還是子豪,不管是真人、還是紙片人,甚至是雕塑,通義千問都能讓他們舞起來,簡單到只需三步:
第一步選擇自己喜歡的舞蹈種類,通義千問 APP 内置了不同的舞蹈模板,包括 DJ 慢搖、鬼步舞、蒙古舞、科目三、劃槳步、兔子舞等十多種舞蹈,選擇你喜歡的其中一種作為目标舞蹈。
第二步上傳圖片,圖片的要求是全身照、正面站立、全身無遮擋、無俯仰角,圖片的分辨率不能低于 500×500。你可以使用手機裡保存的照片,也可以是現場拍攝的照片。此外,通義千問 APP 裡還内置了照片模板供大家使用。
通義千問 APP 對上傳照片的一些要求
最後一步,點擊「立即生成」就可以了。
誰能想到,生成舞蹈視頻已經簡單到這樣了。由于人人都可免費使用,一經上線,受到廣大網友追捧。
效果到底怎麼樣,我們接着往下看。
誰都能跳?
我們先從古代人開始吧,這些只在歷史文獻中出現的人物,跳起舞來會是什麼樣子呢。想必大家都對桃園三結義的故事很熟悉,不知道三兄弟一起舞蹈是怎樣的畫面。
這不劉皇叔打了一輩子仗,馬上就要來享受享受。接着奏樂接着舞,這波科目三跳得理所應當。由劉關張三兄弟發起的「全民舞王」比賽正式開始,你來品一品,誰跳得最好。
哈爾濱不只有聖索菲亞教堂升起的月亮,背上小書包出遊的企鵝,還有會跳兔子舞的夢露。東北 DJ 大哥見了都得誇一句,這兔子舞真不賴啊。
>即使脖子上已經插了 99 根麻醉針,依然能跳最甜的舞。毛利老弟給大家帶來《只想對你說「愛你」》,這靈活的身姿,妖娆的步伐,有沒有讓你心動呢?
2000 多歲的高齡選手高級軍吏俑扭起了秧歌。新的一年已經到來,他用舞蹈傳遞喜氣。
鋼鐵俠上演一段極樂勁舞,舞蹈動作不輸真人,邁着歡快的小步伐,還以為是真人扮演的呢:
玲娜貝兒跳起西網域慢搖,胯部擺動流暢,手臂在空中跟着音樂節拍不停的變化:
這種大秀舞技的時刻,怎麼少的了馬斯克馬老板,誰看了不說一句,馬老板的科目三确實跳的很妖娆:
>跳起蒙古舞來,馬老板也是有模有樣:
>上線即爆火的 Animate Anyone
>通義千問之所以能夠生成如此絲滑的舞蹈視頻,背後離不開阿裡在視頻生成領網域的深耕。不久之前,研究團隊提出了一種名為 Animate Anyone 的算法,論文公布之初在國内外就掀起了一波不小的讨論高潮。短短一個月,Animate Anyone 在 YouTube 單個視頻播放量已經高達 16 萬次,而且這只是其中一位油管博主的視頻播放量,如果統計全網,将會是一個很大的數字:
在這個視頻的評論區,大家也是滿屏的贊嘆:「太驚人了。」
「人工智能的能力太神奇了,」之後忍不住又補了一句,「真的太神奇了。」
截至目前,該項目 GitHub 星标量已經達到 11 k 多。
說到視頻生成,從 GAN 開始,研究者們致力于将影像進行動畫化以及進行姿态遷移的探索,然而,生成的視頻仍然存在局部失真、細節模糊、語義不一致和時序不連續等問題。
為了解決上述問題,阿裡提出了專為角色動畫量身定制的新穎框架 Animate Anyone,它能無縫地把靜态影像轉變成動态的角色視頻。通過巧妙設計的 ReferenceNet、輕量級姿态引導器和時間建模方法,Animate Anyone 解決了影像到視頻生成中的細節不一致和運動不連貫等問題。Animate Anyone 框架如下:
Animate Anyone 具有以下特點:
首先,它有效地保持了視頻中人物外觀的空間和時間一致性;
其次,它生成的高清視頻不會出現時間抖動或閃爍等問題;
第三,它能夠将任何角色影像動畫化為視頻,不受特定領網域的限制。
為了讓大家更好地理解,我們以示例來說明。下圖中同樣是驅動一張照片動起來,直觀來看,DreamPose 和 BDMM 在保留服裝的精細紋理細節方面存在缺點,能看到明顯的運動不連貫、閃爍等問題;而 Animate Anyone 就像真人模特在運動一樣,衣服紋理保持良好,就連腿部衣裙的開衩都精準到位,把細節直接拉滿了。
通過上述示例我們可以看出,由 Animate Anyone 驅動的視頻生成技術,更好的保持了時序上的連續以及合理性,視頻中人物的動作絲滑連接,沒有跳躍或不自然的變化;生成的視頻質量也非常逼真,人物的影像與視頻内容能夠保持高度的一致性;此外,視頻的風格和色彩與原始圖片一致性也較高。
結語
剛剛過去的 2023 年是人工智能技術迅速發展的一年,仿佛一刹那間,AI 就搖身一變,成為一個「六邊形戰士」,從一開始的會寫小說、寫代碼、生成高清大片,到現在已經發展成生成視頻了,AI 的發展速度已經超乎大多數人的想象。
作為引領新一代技術潮流的科技大廠們,自然是緊緊抓住機遇,不斷進行創新與突破,給人們帶來一次又一次的驚喜。
除了大語言模型繼續刷屏外,視頻生成技術也取得了重大進展,國外如 Runway 更新了 Gen-2 模型,帶來了電影級别的高清晰度;Meta 發布視頻生成模型 Emu Video,其視頻的動态性比 Gen-2 有明顯的提高;經典的文生圖模型 Stable Diffusion 的公司 Stability AI 也發布了視頻生成模型 Stable Video Diffusion ( SVD ) 等等。國内也在迎頭趕上,如字節發布 Magic Animate,華為提出的 Animate124 模型等,都在視頻生成領網域進行不斷的創新。
同樣的,阿裡也在視頻生成領網域交出了一份滿意的答卷,将 Animate Anyone 集成到通義千問 APP,使得人人都可以進行無門檻的舞蹈合成,或許用不了多久,這一輪 AI 突破帶來的變革将會觸及更多人,我們将見證生成式 AI 對生產力和創新的颠覆。
在這場變革中,我們相信阿裡會帶來更多令人驚嘆的應用。