今天小編分享的科學經驗:Stable Diffusion團隊放大招!新繪畫模型直出AI海報,實現像素級影像生成,歡迎閲讀。
開源 AI 繪畫扛把子,Stable Diffusion 背後公司StabilityAI再放大招!
全新開源模型DeepFloyd IF,一下獲星 2 千 + 并登上 GitHub 熱門榜。
DeepFloyd IF 不光影像質量是照片級的,還解決了文生圖的兩大難題:
準确繪制文字。(霓虹燈招牌上寫着 xxx)
以及準确理解空間關系。(一只貓照鏡子看見獅子的倒影)
網友表示,這可是個大事,之前想讓 Midjourney v5 在霓虹燈招牌上寫個字 AI 都是瞎劃拉兩筆,對于鏡子理解的也不對。
使用 DeepFloyd IF,可以把指定文字巧妙放置在畫面中任何地方。
霓虹燈招牌、街頭塗鴉、服飾、手繪插畫,文字都會以合适的字體、風格、排版出現在合理的地方。
這意味着,AI 直出商品渲染圖、海報等實用工作流程又打通一環。
還在視頻特效上開辟了新方向。
目前 DeepFloyd IF 以非商用許可開源,不過團隊解釋這是暫時的,獲得足夠的用户反饋後将轉向更寬松的協定。
有需求的小夥伴可以抓緊反饋起來了。
像素級影像生成
DeepFloyd IF 仍然基于擴散模型,但與之前的 Stable Diffusion 相比有兩大不同。
負責理解文字的部分從 OpenAI 的 CLIP 換成了谷歌T5-XXL,結合超分辨率模塊中額外的注意力層,獲得更準确的文本理解。
負責生成影像的部分從潛擴散模型換成了像素級擴散模型。
也就是擴散過程不再作用于表示影像編碼的潛空間,而是直接作用于像素。
官方還提供了一組 DeepFloyd IF 與其他 AI 繪畫模型的直觀對比。
可以看出,使用 T5 做文本理解的谷歌 Parti和英偉達 eDiff-1也都可以準确繪制文字,AI 不會寫字這事就是 CLIP 的鍋。
不過英偉達 eDiff-1 不開源,谷歌的幾個模型更是連個 Demo 都不給,DeepFloyd IF 就成了更實際的選擇。
具體生成影像上 DeepFloyd IF 與之前模型一致,語言模型理解文本後先生成 64x64 分辨率的小圖,再經過不同層次的擴散模型和超分辨率模型放大。
在這種架構上,通過把指定影像縮小回 64x64 再使用新的提示詞重新執行擴散,也實現以圖生圖并調整風格、内容和細節。
并且不需要對模型做微調就可直接實現。
另外,DeepFloyd IF 的優勢還在于,IF-4.3B 基礎模型是目前擴散模型中U-Net 部分有效參數是最多的。
在實驗中,IF-4.3B 取得了最好的 FID 分數,并達到 SOTA(FID 越低代表影像質量越高、多樣性越好)。
誰是 DeepFloyd
DeepFloyd AI Research 是 StabilityAI 旗下的獨立研發團隊,深受搖滾樂隊平克弗洛伊德影響,自稱為一只 " 研發樂隊 "。
主要成員只有 4 人,從姓氏來看均為東歐背景。
這次除了開源代碼外,團隊在 HuggingFace 上還提供了 DeepFloyd IF 模型的在線試玩。
我們也試了試,很可惜的是目前對中文還不太支持。
原因可能是其訓練數據集 LAION-A 裏面中文内容不多,不過既然開源了,相信在中文數據集上訓練好的變體也不會太晚出現。
One More Thing
DeepFloyd IF 并不是 Stability AI 昨晚在開源上的唯一動作
語言模型方面,他們也推出了首個開源并引入 RLHF 技術的聊天機器人 StableVicuna,基于小羊駝 Vicuna-13B 模型實現。
完整的桌面和移動界面也即将發布。
Deepfloyd IF 在線試玩:
https://huggingface.co/spaces/DeepFloyd/IF
代碼:
https://github.com/deep-floyd/IF
StableVicuna 在線試玩:
https://huggingface.co/spaces/CarperAI/StableVicuna
參考鏈接:
[ 1 ] https://deepfloyd.ai/deepfloyd-if
[ 2 ] https://stability.ai/blog/deepfloyd-if-text-to-image-model
[ 3 ] https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
[ 4 ] https://stable-diffusion-art.com/how-stable-diffusion-work/