大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

微軟開源視頻Tokenizer新SOTA!顯著優于Cosmos Tokenizer和Open-Sora

2024-12-26 简体 HK SG TW

今天小編分享的科學經驗:微軟開源視頻Tokenizer新SOTA!顯著優于Cosmos Tokenizer和Open-Sora,歡迎閱讀。

Sora、Genie 等模型會都用到的 Tokenizer,微軟下手了——

開源了一套全能的 Video Tokenizer,名為VidTok。

Sora 等視頻生成模型工作中,都會利用 Tokenizer 将原始的高維視頻數據(如影像和視頻幀)轉換為更為緊湊的視覺 Token,再以視覺 Token 為目标訓練生成模型。

而最新的 VidTok,在連續和離散、不同壓縮率等多種設定下,各項指标均顯著優于 SOTA 模型。

以下是涵蓋 PSNR、SSIM、FVD、LPIPS 指标的性能比較雷達圖,面積越大表示性能越好。

從圖中可以看出對于離散 Tokenizer,VidTok 顯著優于英偉達 Cosmos Tokenizer;對于連續 Tokenizer,VidTok 也比 Open-Sora、CogVideoX 有更高的性能。

這項研究由來自微軟亞研院、上海交通大學、北京大學的研究人員共同完成。

目前,VidTok 代碼不僅開源了,還支持用戶在自定義數據集上的微調,為研究者和開發者提供了一個高性能、易用的工具平台。

性能全面領先,适用各種場景

近年來,視頻生成以及基于此的世界模型已經成為人工智能領網域的熱門研究方向,這兩者的核心在于對視頻内容的高效建模。

視頻中蘊含了豐富的視覺信息,不僅能夠提供真實的視覺體驗,更能作為具身場景中模型理解世界的中間媒介。

然而,由于視頻像素級表示信息高度冗餘,如何通過 Tokenizer 對視頻數據進行高效壓縮和表示成為關鍵課題。

當下很多工作如 Sora,Genie 等都會通過 Tokenizer 将原始的高維視頻數據(如影像和視頻幀)轉換為更為緊湊的視覺 Token,再以視覺 Token 為目标訓練生成模型。

可以說,視覺 Token 的表示能力對于最終的效果至關重要,甚至決定了模型能力的上限。

Tokenizer 的主要作用是将高維的原始數據轉換為隐空間中高效的壓縮表示,使得信息的生成和處理可以在該隐空間中進行。上圖展示了一個視頻的 Token 化過程,通過轉換為 Token 建模,能夠有效降低模型訓練和推理時的計算需求。

根據不同的使用需求,視頻 Tokenizer 通常有如下分類:

連續型和離散型。根據隐空間的數值分布,Tokenizer 可以分為連續型和離散型,分别适用于從連續分布中采樣的模型(如擴散模型等)和從離散分布中采樣的模型(如語言模型等)。

因果型和非因果型。因果結構使得模型只依賴歷史幀來對當前幀進行 Tokenization,這與真實世界系統的因果性質保持一致。非因果模型則可以同時根據歷史幀和未來幀對當前幀進行 Tokenization,通常具有更優的重建質量。

不同的壓縮率模型。Sora 等眾多工作采用了如 4x8x8 的視頻壓縮率(時間壓縮 4 倍、空間壓縮 8 倍),實現更高的視頻壓縮率而保持高質量的視頻重建是目前的研究趨勢。

目前業界領先的視頻模型多為閉源狀态,而開源的視頻 Tokenizer 大多受限于單一的模型設定或欠佳的重建質量,導致可用性較差。

由此,來自微軟亞研院、上海交通大學和北京大學的研究人員最近正式發布了開源視頻 Tokenizer —— VidTok。

在測試中,VidTok 性能全面領先,适用各種場景。

如下表所示,VidTok支持多樣化的隐空間且具有靈活的壓縮率,同時支持因果和非因果模型,以适應不同的使用需求。

對于連續型 Tokenizer,支持不同的視頻壓縮率、不同的隐空間通道數,同時支持因果和非因果模型。

對于離散型 Tokenizer,支持不同的視頻壓縮率、不同的碼本大小,同時支持因果和非因果模型。

更多模型在持續更新中。

為了全面評估 VidTok 在各個設定下的重建性能,作者将 VidTok 與最先進的連續和離散視頻 Tokenizer 分别進行了對齊設定下的比較。所有模型均為 4x8x8 倍視頻壓縮率的因果模型,主要包含以下三種設定:

VidTok-FSQ:離散型,碼本大小各異。基線方法包括 MAGVIT-v2,OmniTokenizer,Cosmos-DV 等。

VidTok-KL-4chn:連續型,隐空間通道數為 4。基線方法包括 CV-VAE,Open-Sora-v1.2,Open-Sora-Plan-v1.2 等。

VidTok-KL-16chn:連續型,隐空間通道數為 16。基線方法包括 CogVideoX,Cosmos-CV 等。

定量實驗結果表明,VidTok 在上述三種設定下均達到了 SOTA 性能,在常見的視頻質量評估指标 PSNR、SSIM、FVD、LPIPS 上具有全面的優勢。

與現有的離散 Tokenizer 相比,VidTok 即使在使用更小的碼本大小時(例如 32,768),也展現出了更優的重建性能。

在連續 Tokenizer 的設定下,無論隐空間通道數是 4 還是 16,VidTok 在所有評估指标上相比基線方法均取得了全面的提升。值得注意的是,這些提升是在沒有模型大小優勢的情況下達成的。

除此之外,團隊還進行了定性分析。

上圖中展示了以上三種設定下的與基線方法的對比結果。

從視頻幀的重建質量可以看出,與現有的方法相比,VidTok 在各種模型設定下,均展現出了最優的重建細節保真度和主觀視覺質量。證明了 VidTok 作為多功能視頻 Tokenizer 的有效性。

所以 VidTok 是如何做到的?

VidTok 的技術亮點解析

相對于現有的視頻 Tokenizer,VidTok 在模型架構、量化技術、訓練策略上分别做了創新。

高效的混合模型架構設計

VidTok 采用經典的 3D 編碼器 - 解碼器結構,同時創新性地結合了 3D、2D 和 1D 卷積,有效地解耦空間和時間采樣。

在現有研究中普遍認為,盡管計算成本較高,完全的 3D 架構提供了更優的重建質量。然而,VidTok 發現将部分 3D 卷積替換為 2D 和 1D 卷積的組合,可以有效地解耦空間和時間采樣,在降低計算需求的同時,保持了高水平的重建質量。

詳細的網絡架構如上圖所示。VidTok 分别處理空間采樣和時間采樣模塊,并在時間采樣模塊中引入了 AlphaBlender 操作符。其餘組件,包括輸入 / 輸出層和瓶頸層,則利用 3D 卷積來促進信息融合。此外,整個架構中引入了層歸一化以增強穩定性和性能。實驗證明該架構在重建質量和計算量之間取得了平衡。

先進的量化技術

VidTok 引入了有限标量量化(FSQ)技術,無需顯式學習碼本,顯著提高了模型的訓練穩定性和重建性能。

有限标量量化(FSQ)由「Finite scalar quantization: Vq-vae made simple」提出,其核心原理是,在隐空間表征中,每個标量條目通過四舍五入獨立量化到最近的預定義标量值。

與傳統 VQ 相比,FSQ 無需學習顯式的碼本,從而提高了訓練的穩定性。實驗表明,FSQ 在碼本利用率、重建質量和訓練穩定性方面具有顯著優勢,作為一種先進的量化技術,有效提升了離散 Tokenizer 的性能。

增強的訓練策略

VidTok 采用分階段訓練策略,訓練時間減少了 50%,而重建質量不受影響。

視頻 Tokenizer 的訓練通常是計算密集的,要求大量計算資源(例如對于 256x256 分辨率的視頻需要 3,072GPU 小時的訓練時長)。這就需要開發有效的策略來降低計算成本,同時保持模型性能。

VidTok 采用一種兩階段訓練方法來應對這一挑戰:首先在低分辨率視頻上對完整模型進行預訓練,然後僅在高分辨率視頻上微調解碼器。這種訓練策略顯著降低了計算成本——訓練時間減少了一半(從 3,072GPU 小時降至 1,536GPU 小時),而保持重建視頻質量不變。

該兩階段訓練的另一優勢是,由于第二階段只會微調解碼器,因此模型可以快速适應到新的領網域數據中,而不會影響隐空間數據分布。

此外,由于視頻 Tokenizer 旨在建模輸入視頻的運動動态,因此在模型中有效表示這些動态至關重要。VidTok 使用較低幀率的數據進行訓練,顯著增強了模型捕捉和表示運動動态的能力,獲得了更好的重建質量。

VidTok 的開源為視頻生成、世界模型領網域提供了新的工具,特别是在當前業内許多領先模型仍未開源的背景下。

團隊表示,VidTok 支持後續微調也為其他應用提供了更廣闊的使用空間,研究者可輕松将 VidTok 應用于特定領網域數據集,為目标場景優化性能。

更多細節内容感興趣的童鞋可參閱原論文。

論文地址:https://arxiv.org/abs/2412.13061

項目地址:https://github.com/microsoft/vidtok

—  完  —

點這裡關注我,記得标星哦~

一鍵三連「分享」、「點贊」和「在看」

科技前沿進展日日相見 ~  

>
熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們