今天小編分享的科學經驗:Midjourney地位不穩?AI繪圖又一黑馬出現,附4款產品一手實測,歡迎閲讀。
AI 圈,再次開卷影像生成。
一連串進展扎堆:
8 月 21 日,Ideogram 正式推出 2.0 版本,聲稱文本渲染能力更強。
沒錯,就是那個成立于去年 8 月,由谷歌 AI 繪畫 4 大牛集體離職創業的項目,曾獲得過一眾 AI 大佬投資。
此番 Ideogram 還公開叫板 Flux,官方自信表示其人類評估明顯優于 Flux Pro。
要知道,Flux 由 Stable Diffusion 原班人馬打造,最近正在因生成以假亂真的 TED 演講 " 照片 " 而走紅各大網絡。
除此之外,一周前,谷歌正式放出了Imagen 3,在官方評估中,号稱表現優于 DALL-E 3、Midjourney v6、Stable Diffusion 3 等一眾繪圖模型。
或許是受刺激了(doge),Midjourney 竟然也轉性了,在 8 月 22 日直接向所有用户推出了免費網頁版。
這下有好戲看了!
既然大家都宣稱自己很強,那我們不妨把大家拉到一桌,來搞個面對面 PK。
誰是最強繪圖 AI?
先請出咱們的 4 位參賽選手(全部使用網頁版):
1 号選手:Ideogram 2.0。每天免費有 10 積分,1 積分可以生成 4 張圖,每天最多生成 40 張圖;
2 号選手:Flux.1。黑森林官方在 Hugging Chat 提供了免費 demo(選 FLUX.1 Schnell 版本);
3 号選手:Imagen 3。在 Image FX 上可以免費無限次使用;
4 号選手:Midjourney。免費試用期一共只有生成 25 張圖的機會;
下面正式進入比賽環節。
黑猴子全翻車了
一上來,為了檢驗這些國外 AI是否理解中文提示詞,咱們也來蹭一波當今頂流黑猴子的熱度。
prompt:遊戲角色,一只猴子,身披盔甲,頭戴鳳羽金冠,手上拿着一根金箍棒,站在一座懸崖之上。
不出意外,意外發生了……
相信大家一眼都被 3 号的大紅叉給吸引了。沒錯,同一提示詞下,只有 3 号 Imagen 3拒絕了生成請求。
看到這兒,第一反應是我們的提示詞是不是觸發了版權保護。于是先删掉了提示詞中的 " 遊戲角色 ",結果還是提醒無法生成。
難道是谷歌 Imagen 3 不支持中文?于是又随機換了一個更簡單的提示詞,這下倒是有圖了。
只不過結果一整個大錯誤,而且換了多個中文提示詞,最終都是一些毫不相關的紋路圖。
看來谷歌 Imagen 3 确實對中文提示詞不 ok。
3 号落榜之後,再看其他幾位,也只有1 号 Ideogram 2.0 表現最佳。
2 号倒還能看出國漫的影子,4 号 Midjourney 則完全放飛自我了 ~(主打一個毫不相幹)
最後還是要表揚下 Ideogram 2.0,精準命中了所有關鍵元素。
雖然不是本人心中想要的東西(想要黑神話),但提示詞還原度确實沒毛病。
是真人還是 AI?傻傻分不清楚
接下來進入各位選手的舒适區——人像生成。
遙想當年,Midjourney 以一張天台情侶合照火爆網絡;眼下,Flux 更是以一組 TED 演講圖風靡全網……
究竟誰更勝一籌?答案馬上揭曉。
prompt:A young man with auburn hair, wearing a checkered shirt in teal and cream, captured with a 50mm lens for a vintage look. Rich colors, sharp focus, and a touch of retro charm.
一位紅褐色頭發的年輕男性,身着藍綠色奶油色方格襯衫,用 50mm 鏡頭捕捉復古風格。色彩豐富,焦點清晰,帶有一絲復古魅力。
先單看 2 号和 4 号,很明顯,Midjourney 赢了!
從細節上看,2 号Flux.1 稍有偏差,衣服顏色多了兩種,這在一水的藍綠格子襯衫中尤為突出。
另外,一上來我們還發現了 Imagen 3獨有的一個小亮點:在生成開始前圈出關鍵詞。
借着它完成的工作,我們正好可以檢驗幾位選手對關鍵元素(藍綠色方格襯衫、50mm 鏡頭等)的還原程度。
可以看到,整體上幾位選手表現都不錯(除了 2 号),還原度較高且都看向了鏡頭。
而且,要不是這些都是本人親自用 AI 生成的,還真無法一下子辨認與真人的區别。(汗顏)
最後悄咪咪説一句,4 号選手 Midjourney 顏值最高。
老大難:圖片顯示文字
成功騙過了所有人之後,是時候讓 AI 吃點苦頭了——
給圖片加文字。
這事兒一直都是個老大難,也成了檢驗 AI 生圖水平的标準之一。
話不多説,直接讓幾位選手制作一塊精美的廣告牌。請各位看官老爺自行帶入甲方爸爸角色。
prompt:A horizontal brass sign reading ‘ Festive Season ’ in a stylish script, encircled by pine and holly on a dark wood backdrop, with a close-up focus on the golden lettering.
一塊水平黃銅标牌,上面以時尚手寫體寫着’ Festive Season ’,周圍環繞着松枝和冬青,背景是深色木材,特寫鏡頭聚焦于金色字體。
一眼掃過,是不是都還不錯,好像都高度還原了提示詞?
但是,一旦拿出甲方爸爸的犀利眼神,這 2 号可就藏不住了。
注意看,2 号Flux.1 偷工減料了,單詞 "Season" 少了一個字母 "S"。
不過除了 2 号,其他幾位還是不錯滴,看來各家 AI 在文字渲染功能上都下功夫了。
所以接下來就是,蘿卜青菜各有所愛,大家憑個人喜好做選擇。(私心投給了 Midjourney)
對了,1 号 Ideogram 這次型号更新還特意拿 " 文字渲染 " 功能做宣傳了,大家不妨多試試。
參考麥當勞,整點 AI 廣告
最近,麥當勞請了 11 個 AI 美女為薯條瘋狂打 call,狠狠火了一把 ~
其實原理也比較簡單,無非是用 AI 生成不同角色宣傳薯條的圖片,再拼接成一個視頻。
沒想到效果驚人,僅在推特一個平台,相關視頻就獲得了近千萬浏覽量。
掌握财富密碼後,咱們正式開幹,身為中國人,AI 助農高低得走起 ~
prompt:Against the backdrop of a cyberpunk-style metropolis, a girl is promoting organic agricultural products in her hands.
在賽博朋克風格的都市背景下,一位女孩正宣傳着手中的有機農產品。
很好,3 号選手再次 " 擺爛了 "。不過這波着實令人費解,提示詞既不是中文,也沒有明顯違禁的地方……
淘汰 3 号後,1 号選手 Ideogram 2.0 帶貨種類最為豐富,大白菜、西紅柿、紫甘藍等應有盡有。
而且它是唯一一個打出文字招牌來宣傳有機食品的,看得出來相當賣力了 ~
另外,細看還能發現只有 1 号在盡力模仿真人,而 2 号和 4 号則完全走上了二刺猿。
u1s1,如果參考麥麥的廣告風格,這一次的短暫生成确實沒有達到理想效果。(希望更貼近真實一點)
但是,好在這幾個 AI 工具目前都可以免費用,多來幾次也不是不行,重點還是方法論。 [ doge ]
别急着走,其實還有一個更靠譜的搞錢方法——
用 AI 輕松拿捏棚拍商業宣傳海報,省下請攝影師、場地和後期的錢不香嘛。
A sleek lipstick tube gleams against a backdrop of sophistication, highlighting the rich pigment and smooth glide. Evoke luxury with sharp focus and a hint of shimmer.
一支光滑的口紅管在精致的背景前閃耀,突顯出濃郁的色澤和順滑的塗抹感。以鋭利的焦點和一抹微光喚起奢華感。
考考大家,假如你要給身邊某位女性挑一只口紅,你會選哪只?(死亡考驗來了)
嘿嘿,所以有人選 4 号了嗎?
雖然 4 号 Midjourney 看起來灰常高級,但這個黑色可能有點小眾了。(慎選)
除了它,接下來表現最好的是3 号 Imagen 3,底下絲絨布料襯托出奢華感,且最重要的是,口紅質地很真實。
對比之下,1 号和 2 号都顯得有點假," 塑料感 " 撲面而來。
因此這一局,整體來説 3 号選手獲勝。
小結一下,整體而言 4 位選手表現都非常不錯。中文提示詞下,黑馬選手 Ideogram 2.0 表現最好。
誰是 Ideogram?
今年 2 月,Ideogram 推出了 1.0 版本,短短半年時間,它再次進化上線了 2.0 版本。
事實上,Ideogram 與谷歌可謂 " 沾親帶故 "。
成立于去年 8 月,創始團隊中前 4 人都是谷歌文生圖研究 Imagen 論文作者。
CEO Mohammad Norouzi,論文共同一作,他在多倫多大學計算機科學博士就讀期間拿到了谷歌 ML 博士獎學金。
畢業後他加入谷歌大腦工作了 7 年,職位也一路升至高級研究科學家,主要研究的就是生成模型。
此外,他也是谷歌神經機器翻譯團隊的原始成員,Hinton 團隊自監督對比學習框架 SimCLR 的合著者。
CTO William Chan(陳俊樂),論文共同一作,他先後就讀于加拿大滑鐵盧大學、卡内基梅隆大學。
他 2012 年加入谷歌時先做的機器學習廣告工程,後轉到谷歌大腦作 NLP 研究。
聯合創始人 Jonathan Ho,博士畢業于 UC 伯克利,曾在 OpenAI 工作一年,後加入谷歌。
他除了是 Imagen 論文的核心貢獻者,還是去噪擴散模型奠基之作《Denoising Diffusion Probabilistic Models》的一作,這篇論文合著者中的 Pieter Abbeel 也是 Ideogram AI 的投資人。
聯合創始人 Chitwan Saharia,論文共同一作,本科畢業于孟買理工學院,2019 年加入谷歌,在谷歌主要負責領導 image-to-image 擴散模型的工作。
創始團隊中的另外三人,Shayaan Abdullah曾是 Twitter 的機器學習工程師,于去年 4 月離職,後加入 Ideogram AI。
Jacob Lu為軟體工程師,加入 Ideogram 之前曾在亞馬遜等公司任職;Jenny Lei是軟體工程實習生,加入 Ideogram AI 之前曾在谷歌實習。
可以看出,Ideogram 由頂級擴散模型研究團隊組成,自成立之初便獲得了資本青睐。
Ideogram 種子輪融資由a16z和Index Ventures領投,金額 1650 萬美元 (當時約 1.2 億人民币)。
個人投資者中也不乏 Andrej Karpathy、強化學習大牛 Pieter Abbeel,GitHub 聯合創始人 Tom Preston-Werner 等。
另外,今年 2 月,多方消息傳出 Ideogram 進行了新一輪融資。
據稱成功籌集了8000 萬美元(約 57 億人民币)A 輪融資,領投方為 Andreessen Horowitz,其他參與投資者包括 Index Ventures、Redpoint Ventures、Pear VC 和 SV Angel。
看來有錢、有技術的 Ideogram 無疑又是 AI 生圖領網域的一匹黑馬。
卷,繼續卷。
Ideogram 2.0 鏈接:
https://ideogram.ai/t/explore
Midjourney 鏈接:
https://www.midjourney.com/home
Flux 鏈接 :
https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell
Imagen3 鏈接:
https://aitestkitchen.withgoogle.com/tools/image-fx
參考鏈接:
[ 1 ] https://x.com/ideogram_ai/status/1826277550798278804
[ 2 ] https://ideogram.ai/launch
[ 3 ] https://x.com/AIandDesign/status/1826277963681370213