今天小編分享的科技經驗:2024 年末決戰,AI 視頻「卷麻了」,歡迎閱讀。
AI 視頻又卷起來了。
12 月中旬 Sora 正式發布,幾天後谷歌推出了号稱最強的 Veo 2 模型,緊接着國内 AI 視頻的 " 卷王 " 可靈 AI 也宣布再次更新,更新到了 1.6 版本。
今年 6 月推出以來,可靈 AI 在過去半年裡已經完成了好幾輪基礎模型能力和產品功能的迭代,而今年 9 月推出的可靈 1.5,已經是國内乃至全球性能最出色的視頻生成模型之一。
在智源研究院的橫向測評中,可靈 1.5 版本以其出色的表現排名第一;而在谷歌的橫向測評裡,在拿谷歌自己的 Veo 2 與包括可靈在内的四個市面上主流視頻模型的生成效果對比中,可靈 1.5 模型也是除 Veo 2 外表現最好的一個。
谷歌基于外部數據集,測試 Veo2 與其他四個視頻模型的表現對比
而相較于此前的 1.5 版本,新發布的可靈 1.6 在文本響應度、動态質量以及畫面質量等多個核心指标上都做出了顯著提升。
可以說作為「賽道卷王」,可靈再次拉高了視頻模型競賽的天花板。
從武俠招式到漫威皮卡丘,可靈 1.6 讓想象力無縫銜接現實
綜合測試結果,可靈 1.6 能夠更加精準地理解復雜的文字描述,特别是在運動、時序動作和鏡頭運作方面的反應更為靈敏,生成的視頻不僅在運動表現上更加合理,人物表情也更具自然感,視覺效果則在色彩、光影、細節處理上做到了進一步優化。
此外,可靈 1.6 還在圖生視頻的能力上進一步優化。據極客公園了解,可靈團隊内部評測 1.6 的圖生視頻效果比 1.5 模型整體效果提升 195%,帶來了更加出色的創作體驗和視覺效果。
更新一出,不少 AIGC 創作者馬上用可靈 1.6 嘗試創作,其中有不少驚豔的作品。
AIGC 創作者 @Jadewu 的作品|視頻來源:可靈 AI
首先是這個表現武俠小說的經典招式——「萬劍歸宗」的短片。這個最早出自經典武俠漫畫《風雲》的招式,由于招式設定復雜,即使在火遍國内的電視劇版《風雲》中,由專業的演員配合後期特效制作,也并不容易在電視劇中完美還原漫畫中對這一絕招的描述。
可以看到,在可靈 1.6 創作的短片裡,不僅很好地理解了「萬劍歸宗」這個復雜的招式,呈現效果、人物動作和兵器的特效也非常驚豔,整個場景充滿真實感與震撼力。即使是在快速移動的鏡頭下,畫面依舊保持清晰,每一個動作都生動流暢,毫無卡頓或割裂感。
創作者北邦發表在愛智島上的作品|視頻來源:可靈 AI
創作者北邦則從「尚舞國風」這一風格化測試的角度對可靈 1.6 進行了測評。風格化測試通常涉及到模型對風格化指令的理解和執行能力,以及生成視頻的視覺質量。
該創作者使用了 SD Flux @ Liblib Webui 進行文生圖,再用可靈 1.6 圖生視頻以及 Flux LoRA 混合生成,「目前可靈 1.6 已經對復雜的畫面風格有了更多的理解和動态塑造能力,這個主要得益于 1.6 更新了對提示詞語義理解和動态表現力。」
絲滑的舞蹈動作、浮世繪的色彩,以及精細的背景渲染,都是可靈 1.6 在風格化測試中展現出的亮眼表現。相比于以往的版本,1.6 在對復雜畫面風格的理解上有了顯著的進步,能夠精準捕捉并再現用戶設定的藝術風格。不僅如此,模型在動态表現上的提升,也使得畫面中的動作更加流暢自然,仿佛真正的舞者在其中翩翩起舞,令人驚豔不已。
AIGC 創作者溫維斯的作品 | 視頻來源:可靈 AI
AIGC 創作者溫維斯則用可靈 1.6 生成了 9 個「漫威皮卡丘」,從生成效果來看,酷炫的漫威「外殼」跟可愛的皮卡丘融合得毫無違和感。
整體來看,動态場景流暢,動作生動自然,畫面質量也很高,無論是皮卡丘的動作,還是漫威角色皮膚的細節,1.6 都流暢、逼真地呈現了出來,不知道的還以為漫威真和皮卡丘夢幻聯動了。
細節與動态的較量:可靈 1.6 對比 Sora
AIGC 創作者歸藏的作品|視頻來源:可靈 AI
在可靈推出 1.6 版本前些天,OpenAI 也終于将鋪墊了長達 10 個月的 Sora 正式推出,也因此,AIGC 創作者歸藏在對比可靈 1.6、1.5 版本的同時,對 Sora 也進行了對比。
首先來看看模型在理解文本描述并生成相應視頻内容的不同能力。特别是在涉及復雜動态場景和時序動作時,模型是否能夠準确地将文字轉化為畫面。
從文本響應度上來看,Sora 對文本的理解似乎不太到位,比如在第一組裡,Sora 的「猛獸」并沒有站起來,更沒有抬頭咆哮,更沒有雨水落下,而可靈 1.5 裡,「猛獸」做到了咆哮,随後天空也開始落下雨滴,但還是缺失了「抬頭」這一下,1.6 裡則将「抬頭咆哮」這一點完整地實現了。
在視頻生成過程中,動态場景的流暢性和運動的自然度至關重要。這一點在第二組的小兔子吃月餅體現的比較明顯。這一組裡的 Sora,兔子只是捧着月餅塞在嘴邊,并沒有「吃」這個動作,月亮的移動也是「倏」地一下,而可靈 1.5 則生動體現了「吃」這個動作,不過月亮的移動還是算不上「緩慢」,但 1.6 版本則在「吃」的基礎上,将月亮的移動也變得「緩慢」了。
畫面的質量直接影響觀看體驗。這組關于柿子樹的測試,可以比較明顯地看出模型在色彩還原、光影效果和細節處理方面的不同表現。
在這組對照裡,Sora 呈現出的柿子樹首先就看着有點「假」,柿子的顏色亮的實在有點突兀了,在鏡頭的推移上基本沒有變化,而可靈 1.5 裡「柿子」的形态首先就看着跟真的差不多,鏡頭由近拉遠的同時,冬霧也在空中騰起,可靈 1.6 則更進一步,不僅柿子在樹上的分布有所變化,還有陽光從遠處的群山處折射過來,并且雪花在空中飛舞,畫面的豐富度與質感都明顯優于前兩者。
從 " 中國的 Sora" 到 " 世界的可靈 "
在過去的一年裡,視頻生成模型迎來了持續的更新迭代。從 Sora 的首發引發業界轟動,再到各大國内外廠商相繼推出新版本,AI 視頻生成領網域無疑進入了一個加速發展的階段。
可靈 AI 剛問世時曾被外界稱為中國版 Sora,備受業界内外期待,推出後一度位列全球訪問量最高的 AI 視頻產品,時至今日,從前述可靈 1.6 的更新以及對照中超越 Sora 的表現可以看出,可靈 AI 已成為國產 AI 的代表,在國際上證明了自己的實力,成為全球視頻生成領網域的标杆之一。
在這場競速中,可靈 AI 無疑扮演着 " 賽道卷王 " 的角色,正在以一系列創新和技術突破不斷刷新行業天花板。
6 月,可靈 AI 初次亮相,就以全球首個真實影像級視頻生成大模型的姿态驚豔全場,随後,其技術能力迅速進化,快速推出了圖生視頻、視頻續寫、運動筆刷等創新功能,不僅顯著提升了畫面質量、動态表現和指令響應能力,還将文生視頻的生成時長擴展至 10 秒,為創作者提供了更加自由的發揮空間。
到了 9 月,更新版可靈 1.5 發布,進一步增強了畫質、動态質量、運動合理性、語義理解等方面的表現,展現了可靈 AI 在細節和創意上的強大潛力,全球用戶在社交平台上創作了大量創意視頻,充分展示了這一技術在藝術創作和内容生產中的無限可能。
自推出 6 個月來,大大小小迭代 10 餘次的可靈 AI ,不僅此前每一次的更新都超越了以往的局限,不斷推動生成效果達到新高度,賦予了模型更強的适應性和創造力,此次從 1.5 到 1.6 的更新,則更是體現了對細節的極致打磨。
(可靈 1.6 模型概念宣傳片)
無論是文本響應、動态效果,還是畫面質量的提升,可靈 AI 在技術上實現精細化調整的同時,也在無形中推動了整個行業天花板的提升。這一版本的發布不僅展現了國產技術的強大實力,更加速了全球 AI 視頻生成領網域的技術進步,可以說是「卷王之王」。
如今的 AI 視頻生成不僅僅是技術層面的比拼,更是各大廠商在算法優化、細節呈現、生成質量上的全面較量。在這場競争中,可靈 AI 憑借其不斷更新的技術和強大的創造力,已位列行業前沿。數據顯示,可靈 AI 發布半年來,已擁有超過 600 萬用戶,累計生成超 6500 萬個視頻和超 1.75 億張圖片。
在這一輪競争中,可靈 1.6 的亮相,不僅進一步拉高了行業天花板,也意味着,随着技術的不斷突破和創作空間的擴展,AI 視頻生成的未來将不僅僅停留在技術層面的革新,而将開啟全新的視覺創作時代。
頭圖來源:可靈 AI