今天小編分享的科學經驗:質量無損,算力砍半!達摩院開源視覺生成新架構,出道即SOTA,歡迎閱讀。
算力砍半,視覺生成任務依然 SOTA!
達摩院在 ICLR 2025 上抛出的 DyDiT 架構:通過時間步長與空間區網域的智能資源分配,将 DiT 模型的推理算力削減 51%,生成速度提升 1.73 倍,而 FID 指标幾乎無損!
更驚人的是,這一突破僅需 3% 的微調成本。
該方法通過引入動态化調整機制,可精準削減視覺生成任務中 50% 的推理算力,有效緩解傳統擴散模型的計算冗餘問題,相關工作已開源。
DiT 架構作為當前主流的生成模型框架,有效實現了影像與視頻的可控生成,推動生成式 AI 走向應用爆發。
然而,DiT 架構的多步生成策略存在推理效率低、算力冗餘等問題,在執行視覺生成任務容易造成極高的算力消耗,限制其往更廣泛的場景落地。
業内提出高效采樣、特征緩存、模型壓縮剪枝等方法嘗試解決這一問題,但這些方法均針對靜态不變模型,又衍生出潛在的冗餘浪費問題。
達摩院(湖畔實驗室)、新加坡國立大學、清華大學等聯合研究團隊在論文《Dynamic Diffusion Transformer》提出了動态架構 DyDiT,能夠根據時間步長和空間區網域自适應調整計算分配,有效緩解視覺生成任務中的算力消耗問題。
具體而言,DyDiT 能在簡單的時間步長使用較窄的模型寬度,減少計算資源;在空間維度上優先處理含有詳細信息的主要對象,減少對背景區網域的計算資源分配,提升推理效率與減少計算冗餘的同時,保持生成質量。
使用者更可根據自身的資源限制或者部署要求,靈活調整目标的計算量,DyDiT 将自動适配模型參數,實現效果與效率的最佳平衡。
實驗結果表明,DyDiT 在多個數據集和生成模型下均表現出高穩定性。
僅用不到 3% 的微調成本,将DiT-XL 的浮點運算次數(FLOPs)減少了 51%,生成速度提高了 1.73 倍,在 ImageNet 測得的 FID 得分與原模型幾乎相當(2.27vs2.07)。
據透露,DyDiT 相關訓練與推理代碼已開源,并計劃适配到更多的文生圖、文生視頻模型上,目前基于知名文生圖模型 FLUX 調試的 Dy-FLUX 也在開源項目上架。
據悉,達摩院今年共有 13 篇論文被 ICLR 2025 錄用,涵蓋了視頻生成、自然語言處理、醫療 AI、基因智能等領網域,其中 3 篇被選為 Spotlight。
論文鏈接:
https://arxiv.org/abs/2410.03456
技術解讀:
開源鏈接:
https://github.com/alibaba-damo-academy/DyDiT
一鍵三連「點贊」「轉發」「小心心」
歡迎在評論區留下你的想法!
— 完 —
學術投稿請于工作日發郵件到:
标題注明【投稿】,告訴我們:
你是誰,從哪來,投稿内容
附上論文 / 項目主頁鏈接,以及聯系方式哦
我們會(盡量)及時回復你
點亮星标
科技前沿進展每日見