今天小編分享的科學經驗:Stable Diffusion 3更多隐藏功能曝光:文字可更改圖片細節,歡迎閲讀。
Stable Diffusion 3,它終于來了!
足足醖釀一年之多,相比上一代一共進化了三大能力。
來,直接上效果!
首先,是開挂的文字渲染水平。
且看這黑板上的粉筆字:
Go Big or Go Home (不成功便成仁),這個倒是殺氣騰騰啊~
路牌、公交燈牌的霓虹效果:
還有刺繡上 " 勾 " 得快要看到針腳的 " 晚安 ":
作品一擺出,網友就大呼:太精确了。
以至于有人表示:趕緊把中文也安排上啊。
其次,多主題提示能力直接拉滿。
什麼意思?你盡管一次性往提示詞中塞入任意多元素,Stable Diffusion 3:漏一個算我輸。
呐,仔細瞅下圖,這裏面就有 " 宇航員 "、" 穿着芭蕾舞裙的小豬 "、" 粉色雨傘 "、" 戴着禮帽的知更鳥 ",角落裏還有 "Stable Diffusion" 幾個大字(可不是什麼水印)。
有了這個能力,一幅作品你想多豐富就有多豐富。
最後,當屬影像質量,再次進化了一個度。
光看前面這些圖,就被衝擊到有沒有?!
而各種超清特寫,那是再信手拈來不過的了。
心動嗎?目前官方已開放排隊名單,大夥可以前往官網申請。
咳咳,也不得不説,最近這 AI 圈可真是相當熱鬧啊。
有網友直呼,我的電腦已經 Hold 不住了……
SD3 來了,CEO 劇透更多隐藏功能
全新的 Stable Diffusion 效果有多好,再給大夥奉送一些。
當然,所有出圖均來自官方,比如 StabilityAI 媒體負責人:
不得不説,文字效果實在最為吸人眼球,各種形式都能呈現得相當清楚和 " 應景 "。
而看到上面這幅圖,不得不想到 "Midjourney 尴尬亮相學術界:為生物學論文亂配圖 " 一事——有了 SD3 之後,我們是不是可以制作非常專業的學術配圖了?
除了這些,SD3 的 " 酒精水墨畫 " 也相當别出心裁:
動漫風格:
again,你可以在上面加清晰的文字了。
由于目前需要排隊申請,大夥還不好實際測試摸底。
不過有機智的網友已經用相同的提示詞喂給了 Midjourney(v 6.0)。
比如開頭的那張 " 紅蘋果與黑板字 "(prompt:cinematic photo of a red apple on a table in a classroom, on the blackboard are the words "go big or go home" written in chalk)
最終 Midjourney 給出的結果如下:
從這組對比來看,可以説是高下立判—— SD3 無論是文字拼寫還是質量、色彩協調性等方面都更勝一籌。
就在今天,CEO Emad 今天還劇透了 SD3 的更多新功能。
例如簡單文字精準控制影像中每一個元素,包括替換、删除。
最絕的是身後背景都能直接換成水族缸……甚至無縫轉視頻,毫無改動痕迹。
除此之外,還有3D 視圖。這些全部都由 SD3 完成。
技術方面,目前,模型可選擇的參數範圍在 800M 到 8B。
詳細的技術報告還未公布,官方目前只透露主要結合了擴散型 transformer 架構以及 flow matching。
前者實際上同 Sora 一樣,附上的技術論文正是 22 年 William Peebles 同謝賽寧合寫的 DiT。
DiT 首次将 Transformer 與擴散模型結合到了一起,相關論文被 ICCV 2023 錄用為 Oral 論文。
在該研究中,研究者訓練了潛在擴散模型,用對潛在 patch 進行操作的 Transformer 替換常用的 U-Net 主幹網絡。他們通過以 Gflops 衡量的前向傳遞復雜度來分析擴散 Transformer ( DiT ) 的可擴展性。
而後者flow matching同樣也是來自 22 年,由 Meta AI 以及魏茨曼科學研究所的科學家完成。
他們提出了基于連續歸一化流(CNFs)的生成模型新範式,以及 flow matching 的概念,這是一種基于回歸固定條件概率路徑的矢量場的免模拟 CNFs 的方法。結果發現使用帶有擴散路徑的 flow matching,可以訓練出來的模型更穩健和穩定。
不過最近看了這麼多視頻生成進展,也有網友表示:
你覺得呢?
One More Thing
除此之外,也就在前一天,他們的視頻產品Stable Video正式開放公測。
基于 SVD1.1(Stable Video Diffusion 1.1),人人可用。
主要支持文生視頻和圖生視頻兩個功能。
參考鏈接:
[ 1 ] https://stability.ai/news/stable-diffusion-3
[ 2 ] https://arxiv.org/abs/2212.09748
[ 3 ] https://arxiv.org/abs/2210.02747
[ 4 ] https://twitter.com/pabloaumente/status/1760678508173660543