今天小編分享的科學經驗:可把馬斯克二次元化?「最強文生圖開放模型」Stable Diffusion免費來襲!,歡迎閱讀。
Stable Diffusion 最強版本,來了!
剛剛,SDXL 1.0 正式發布,可免費在線試玩。
效果上,無論是以假亂真的寫實大片:
超現實的熊貓喝啤酒:
還是賽博朋克漫畫,都非常 nice~
Stability AI 表示,SDXL 1.0 能生成更加鮮明準确的色彩,在對比度、光線和陰影方面做了增強,可生成100 萬像素的影像(1024 × 1024)。
而且還支持在網頁上直接對生成影像進行後期編輯。
(有一股和 Midjourney、Firefly 打擂台的味兒了)
網友們已經按捺不住上手試玩了 ~
和基礎 Stable Diffusion 相比,SDXL 1.0 生成結果更加準确和逼真。
而且官方表示,提示詞也能比之前更簡單了。
這是因為 SDXL 1.0 的基礎模型參數量達到了35 億,理解能力更強。
對比基礎版 Stable Diffusion,參數量只有 10 億左右。
由此,SDXL 1.0 也成為當前最大規模的開放影像模型之一。官方甚至直接說這就是世界上最好的開放影像模型。
話不多說,我們來上手體驗了 ~
SDXL 1.0 在操作上很便捷,直接輸入 prompt 即可,還能從下面勾選風格、尺寸參數等。
一次生成默認是出 4 張圖,如果不滿意還可以點下方 " 加号 " 讓它繼續畫。
官方介紹說,現在讓 SDXL 1.0 生成大作,無需再加入 " 傑作 " 這種提示詞了。
讓它生成一幅日漫風格的影像,畫風非常貼合,而且在光影的處理上也更加自然了。
1990s anime low resolution screengrab couple walking away in street at night
或者是一幅風景照?也能以假亂真了。
甚至是讓馬斯克站在中式庭院裡,抬頭斜望着天空……
Elon Musk in an ancient Chinese palace
或者是把蘋果收購了?
在「WWDC」上,他舉着全新款 iPhone 向人們展示,身邊還圍滿了記者和粉絲(doge)。
Elon Musk releasing new iPhone at WWDC
除了這些老馬的洋蔥新聞之外,繪畫風格的作品效果也不錯。
左邊的是齊白石水墨風格,而右邊是一幅漫畫。
左:Elon Musk delivering a speech, ink painting, Qi Baishi style
右:Elon Musk comic
除了繪畫,也可以把老馬放進我們的元青花。
Elon musk in the shape of Yuan Dynasty Blue and White Porcelain
上面展示的這些「老馬的故事」,用的 prompt 都比較簡單。
但從效果并沒有因為提示詞簡單而拉胯,這也與官方的說法相印證。
不過我們還是想看看,如果用更加復雜精致的 prompt,會是什麼樣子?
我們找到了 Midjourney 創作的一張老馬在蘇聯擔任汽修工人的珍貴照片,重新喂給 MJ,讓它生成個 prompt。
MJ 生成了下面這樣的 prompt,我們就用它來測試 SDXL:
Elon Musk ( 這裡 MJ 生成的是 a man ) standing in a workroom, in the style of industrial machinery aesthetics, deutscher werkbund, uniformly staged images, soviet, light indigo and dark bronze, new american color photography, detailed facial features
風格完全符合我們的預期,細節也還不錯。
再來一個復雜 prompt 的圖作為收尾,同樣是 MJ 根據此前的作品生成後喂給 SDXL。
elon musk eating food with chopsticks, in the style of peter coulson, cross-processing/processed, pinhole photography, herb trimpe, james tissot, transavanguardia, spot metering
左邊是 SDXL 的作品,右邊是 MJ 的原版,大家可以對比一下。
提示詞同樣支持中文,不過似乎會在給出結果中傾向于國風,準确性可能也會受到影響。
比如輸入 " 一只老虎在海邊 " 後,意外給出了一個國風妹子。
效果大家都已經看到了,那麼 SDXL 生成圖片的速度如何呢?
對于免費用戶來說,時間主要花費在排隊上了,不過也不會等待太久。
在 5.5 秒的時間内,排隊人數從 160 減少到了 99。
除了生成影像外,SDXL 還提供了很多後期編輯功能。
具體來說,包括去除背景、細節處理、畫幅擴增等等。
這些功能是 SDXL 所在的 Clipdrop 平台上已有的,而 SDXL 可以一鍵将生成的圖片傳入對應模塊。
這裡我們選擇背景消除功能展示一下,可以看出邊緣的細節幾乎沒有什麼破綻。
目前,SDXL 的免費使用額度還是比較高的,登錄後每個賬戶每天可生成 400 張(需要排隊)。
月付的價格是 9 美元每月,年付則相當于 7 美元(約 50 元人民币)每月,包含了 1500 張每天的 SDXL 額度,且無需排隊。
不過不同區網域的價格似乎也有所區别,比如阿根廷的年付價格平攤到每月是 742 比索(約合 19.4 元人民币或 2.7 美元)。
此外,由于付費版本實際上是 Clipdrop 平台的 Pro 訂閱,所以也包含了該平台的其他功能。
除了 Pro 賬戶,還有 API 版本可供開發者使用(可以訪問 Stability AI、Amazon 等平台)。
開放影像模型中的 " 最大杯 "
在最新博客中,Stability AI 介紹了 SDXL 1.0 的更多技術細節。
首先,模型在規模和架構上都有了新突破。
它創新性地使用了一個基礎模型(base model)+ 一個細化模型(refiner model)。
二者的參數規模分别為35 億和66 億。
這也使得 SDXL 1.0 成為目前規模最大的開放影像模型之一。
Stability AI 創始人莫斯塔克(Emad Mostaque)表示,更大規模的參數量能讓模型理解更多概念,教會它更深層次的東西。
同時在 SDXL 0.9 版本還進行了 RLHF 強化。
這也是為什麼現在 SDXL 1.0 支持短提示詞,而且能分清紅場(the Red Square)和一個紅色的廣場(a Red Square)。
在具體合成過程中,第一步,基礎模型產生有噪聲的 latent,然後由細化模型進行去噪。
其中基礎模型也可以作為獨立模塊使用。
這兩種模型結合能生成質量更好的影像,且不需要消耗更多計算資源。
官方介紹 SDXL 1.0 可以運行在 8GB VRAM 的消費級 GPU 上,或者是雲端。
除此之外,SDXL 1.0 在微調也有了提升,可以生成自定義 LoRAs 或者 checkpoints。
Stability AI 團隊現在也正在構建新一代可用于特定任務的結構、風格和組合控件,其中 T2I/ControlNet 專門用于 SDXL。
不過目前這些功能還處于 beta 測試階段,後續可以關注官方更新。
總結來說,文生圖都是一個逐漸迭代的過程,SDXL 1.0 的目标就是讓這個過程更加簡單。
莫斯塔克表示,現在只需要 5-10 張圖片,就能快速微調模型。
從用戶反饋中也能看到,相較于 Stable Diffusion,SDXL 1.0 更能讓大家滿意。
實際上,從今年 4 月以來,Stability AI 就發布了 SDXL 最早的測試版。
6 月份開始進行内測,前段時間發布了 0.9 版本,當時就預告了會在 7 月發布一個開放版本,即最新的 1.0 版本。目前相關代碼權重已經發布在 GitHub 上。
而且 Stability AI 機器學習負責人表示,相較于 SDXL 0.9,1.0 版本降低了對算力的需求。
感興趣的童鞋快去試玩吧 ~
試玩入口:
https://clipdrop.co/stable-diffusion
GitHub:
https://github.com/Stability-AI/generative-models
參考鏈接:
[ 1 ] https://stability.ai/blog/stable-diffusion-sdxl-1-announcement
[ 2 ] https://venturebeat.com/ai/stability-ai-levels-up-image-generation-launch-new-stable-diffusion-base-model/
[ 3 ] https://techcrunch.com/2023/07/26/stability-ai-releases-its-latest-image-generating-model-stable-diffusion-xl-1-0/