今天小編分享的科技經驗:不學Sora?這家國產AI搞了個“無限續杯”的視頻模型。,歡迎閲讀。
The following article is from 差評前沿部 Author 世超
這回,世超掏着一個據説不一樣的視頻模型:sand.ai 的 Magi-1。
具體有啥不一樣?我們先翻了翻 sand.ai 的資料,發現他們團隊還真是有點來頭。
創始人曹越和聯創張拯早在 2021 年的萬引神文 Swin Transformer 就有合作,都曾就職于科技界的黃埔軍校 —— 微軟亞洲研究院。曹越還是光年之外的創始人之一。
在強強聯手的 buff 加持下,sand.ai 創立才一年多就有了自己的第一個視頻生成模型 Magi-1。
據説 Magi-1 是現在市面上唯一一款能進行無限時長視頻續寫的模型,還能精細化控制到每一秒生成的内容。
要知道現在視頻生成模型的極限普遍就幾十秒,像可靈那樣一分鍾以上的都很少見。要生成更長的視頻,那是另外的。。。另外的價錢也不行,這是底層模型的技術問題。
而 Magi-1 支持無限時長續寫,還可以每次同時生成最多 16 個 1s 到 10s 的視頻。
不光技術有創新,sand.ai 還表示,他們已經在 4 月 21 日開源了模型,并同步上線產品 demo。
連業界大佬都發文力挺 sand.ai,李開復發帖,這是繼 DeepSeek 之後又一個開源的世界級模型。
美團創始人王慧文也為 sand.ai 這波開源發聲:" 只有科技的不斷前行,能挽救人類掉入零和遊戲的深坑。"
我們去翻了幾個官方的案例,好像确實有點東西啊。
看看這飛快的運動速度!
再看看這絲滑的鏡頭轉換!
這可讓世超有點期待了。
不過得先冷靜一下。測試下來,感覺想法是很有潛力的,有優勢和特色,但是生成的效果還有待提升。
我們先找了個夢中情車的正面特寫慢鏡頭,準備續寫接下來世超駕駛 Lamborghini 秋名山車神再世的畫面。
測試的過程中,我們發現 Magi-1 對于運動速度和鏡頭的控制确實很優秀。蘭博基尼在路上疾馳的效果做出來了,鏡頭也很有電影感,一直聚焦在跑車上。
還有一個很明顯的優點,就是 Magi-1 對于視頻主要物體的保護非常到位。不會在多次續寫之後,跑車變身大黃蜂的情況。
它對物理環境的理解也是正确的,車輛一直保持在地面上,沒有出現低空飛行之類的騷操作。
不過。。。Magi-1 好像有點健忘。比如前三段生成的視頻都知道車後是一面牆,結果第四段直接一個倒車擺尾漂移絲滑上路了。
而且場景理解自從上路就越來越抽象了。除了克蘇魯風綠化帶,提示詞讓它在紅燈前刹車,本意遵紀守法,它直接來個交通肇事。
雖然确實是在紅燈前刹車,沒毛病
但我們接下來的測試發現,效果不好也不能全怪模型,還可能是提示詞出了問題。
打開 Magi-1 的提示詞增強,它可以把簡單的提示詞擴展成更詳細、容易讓模型理解的指令。但在實際使用的時候,它出現了添油加醋,假傳聖旨的現象。
比如這裏,我們只想讓小雞玩具跳起來,提示詞增強自己給自己上了個難度,還要讓小雞扇動翅膀。
但如果我們把提示詞復制一遍,只删掉扇翅膀的要求,關掉提示詞增強,生成的視頻效果立刻好起來了。
左圖有扇翅膀提示詞,右圖去掉扇翅膀提示詞
接下來,我們再對之前的跳躍提示詞直接進行修改,變成讓鏡頭逐漸左移。
效果看起來也不錯,環境沒有崩,小雞也沒有崩,鏡頭的确移動了。
所以這裏有個小小的功能改進建議嗷:在進入視頻生成環節之前,最好讓大家夥兒看看增強的提示詞對不對,給一個修改提示詞的機會。
畢竟生成一次還是要等挺久的,要是最後才發現中間提示詞被魔改了,有點搞心态。
這也側面反映了,Magi-1 對于提示詞是非常敏感而且要求很高的。想用好它,最好知道什麼樣的提示詞才能讓它出好活。
看完測試,你可能覺得,這模型有點拉呀,現在生成效果比這個好的多的是,為啥把它拿出來説?
因為它和我們熟悉的 Sora 等非自回歸 DiT 模型 ( Diffusion Transformer ) 的技術路線完全不一樣,是一個自回歸生成模型 AR ( Autoregressive model ) 。
作為一次創新嘗試,它有自己獨特的優勢和潛力。
AR 模型就像一條環環相扣的鎖鏈,每一次生成視頻的新一幀,都在前一幀的基礎上。這樣生成的視頻相鄰幀之間就會有強相關性。
而 DiT 模型更像是放在一起偽裝成鎖鏈的一堆鐵環。它為了效率會同時生成很多幀,但沒有辦法兼顧到幀與幀之間的關聯。
為什麼 sand.ai 要嘗試一條新路,選擇和主流視頻生成都不一樣的 AR 模型呢?
我們對 sand.ai 團隊進行了簡單的采訪,很榮幸得到了對 Magi-1 更專業、長遠的解答。
sand.ai 表示,他們早在 Sora 發布前就洞察到了 AR 模型在視頻生成方面的潛力。堅持 AR,是因為它在大語言模型上已經被證實是可擴展的 ( scalable ) ,而 scalable 在很大程度上決定了這個技術在未來的上限。
理論上,AR 模型和語言模型的技術路線更接近,有機會讓語言和視頻統一建模,使文字和視頻之間的關系就像現在文生圖一樣緊密,效果有可能實現一次躍遷。
另一方面,視頻随着時間的推移往往還有物理和邏輯的相關性。比如籃球如果被籃筐攔住,它就不會再掉落了。
下圖是用 Magi-1 生成的
DiT 每幀獨立生成的方式可能會切斷這種關聯,沒準會讓籃球直接魂穿籃筐。而 AR 會更好地理解視頻内容,不僅内容合理,還會在運動幅度、速度上表現得更好。
雖然技術路線目前看還沒有完全成熟,但 sand.ai 相信 AR 會是未來。随着技術的不斷迭代,也許就會找到最合理的 AR 模型視頻生成的方式。
于是按照他們的説法,在對技術全面而理性地分析後,sand.ai 在 AR 視頻生成上下了注。
其實,在視頻生成領網域卷到飛起的今天,sand.ai 看似遲到了,但在上限更高的 AR 視頻生成上他們卻是先發而至。
最重要的是,sand.ai 這波開源,屬實格局拉滿。
科技行業的每一次重大開源,都會帶來一場百花齊放。期待 sand.ai 未來的更多產品,以及更多團隊在 Magi-1 基礎上的創新成果。
撰文:莫莫莫甜甜