今天小編分享的科技經驗:打敗 Midjourney,這個 Google 大牛推出的 AI 產品憑什麼彎道超車,歡迎閲讀。
沒有誰能一直稱王,但加上前綴誰都有稱王的機會。
AI 文生圖,還能玩出什麼新花樣?
在這片群雄割據的紅海,頭部被 Midjourney、DALL · E、Stable Diffusion 等占據,其餘還能讓人眼前一亮的產品并不多。
然而,仍有黑馬殺出:Ideogram,前 Google 工程師創立,硅谷 AI 大神投資,去年 8 月面世,2 月底發布了最新的模型。
Ideogram 的特别在于,擅長生成包含文本的圖片,這恰恰是幾大巨頭都在改善的難題。
事實證明,從别人跌倒的地方爬起來,不失為一種彎道超車的方式。
能「畫圖」和「攝影」,但 AI 可能還是個「文盲」
讓 AI 精準生成文字,向來是個痛點,哪怕生成的人物和風景像相機拍出來的,如同亂碼的扭曲文字,瞬間讓 AI 原形畢露。
▲ Midjourney v5.2 生成的錯誤文字 .
Ideogram 站出來表示,拒絕讓 AI 繼續做個「文盲」,不妨先從它開始。
接觸 Ideogram 的門檻很低,打開網頁(https://ideogram.ai/)登錄就能用,界面看起來也清爽不復雜。
生成一張圖片的步驟不多,在輸入框填完提示詞,再根據你想要的效果,勾選圖片長寬比,以及照片、海報、3D 渲染等圖片樣式。
Ideogram 還考慮到了人類可能是提示詞「苦手」,今年 2 月推出了「魔法提示」,這就像一個内置的 ChatGPT,幫你完善提示詞,由 AI 拿捏同類的心思。
包含文本内容的圖片有哪些?產品标志、T 恤印花、書籍封面、電影海報 ......
我們先來個入門級考驗,讓幾個人舉起寫着動物名稱的指示牌,乍看文本對了,但臉和手不太正常,兩者相互抵消,原來短板沒有消失,只是轉移了。
如果只讓 Ideogram 寫字,效果便驚豔得多。
讓 AI 生成馬斯克的經典句子「我寧願樂觀而錯誤,也不願悲觀而正确」,除了「W」有瑕疵,其他單詞都寫對了。
字體活潑了些,70 後的馬斯克不知道能不能接受,但碰撞的黑白色,應該能讓爆改小藍鳥的他滿意。
再拿經典諺語「只工作不玩耍,聰明的孩子也變傻」作為考題,雖然提示詞強調了使用印表機字體,但 Ideogram 沒能做到。看來光用提示詞還不能定義字體,只能取個近似值。
接着,命令 AI 為一家叫作「Coffee AI」的 AI 初創公司設計 logo。
主體是個電路圖案的咖啡杯,右上角有個機器人咖啡師,公司名稱用粗體大寫字母寫成,排版簡單和克制,作為 logo 來看很直觀,但總體來説在意料之中,很難讓甲方心動拍板。
該給 AI 上難度了,句子更長,對設計的要求更高。
我要求 Ideogram 為兒童繪本設計内頁,不僅要在醒目的位置寫着「穿襪子的狐狸和戴禮帽的兔子」,底部還得标注「匿名」。
對于這兩行文字,Ideogram 基本完成了任務,用上了手繪字體和粉筆塗鴉,甚至配了符合題意的插圖,繪本的味道對了,但錯誤也很顯眼,「in」這個單詞有些問題,兔子長得像狐狸還和狐狸稱兄道弟。
Ideogram 同樣可以拿來電影海報,不妨拿前段時間爆火的、阮經天主演的電影《周處除三害》試試水。
我在提示詞裏雜糅了典故和電影,背景用到俠士剪影、海、山的意象,文字部分參考電影的英文名:豬、蛇和鴿子。
除了漏了一個「the」,最終的海報效果還不錯,融合了古典的形象和現代的字體,鴿子塗鴉堪稱點睛之筆,但總體更像西幻風,讓人覺得陌生,很難聯想到電影的劇情。
體驗下來發現,其實 Ideogram 在文字上出錯的概率不小,有時候生成兩三次,才能得到一字不差的理想結果。
就算文本對了,人物的臉和手指經常翻車。
它可能還會加些花裏胡哨的小動作,随機生成無意義且扭曲的文字,自己打臉自己。
▲ 這裏的小字就糊成一團了 .
但總體來説,Ideogram 讓人驚喜,可以寫對長句子,并且用上合适的字體和排版方式配合畫面氛圍,盡管目前還不能寫中文,但如同鬼畫符的幾個字非常貼合衣服褶皺。
▲ 這四個字其實是「恭喜發财」.
瑕不掩瑜,Ideogram 的就業場景已經很多了。設計 logo、海報、T 恤圖案時,它都可以作為靈感參考和創意輔助。
以前擔心 AI 會「畫畫」和「攝影」,以後還怕 AI 有文化和會設計。
審美不輸 Midjourney,還是個表情包神器
AI 的進步按天衡量,可能一覺醒來世界就發生了變化。雖然 Ideogram 表示自己的文本渲染能力最強,但對手們也不服輸。
還未公開發布和開源的 Stable Diffusion 3 在 2 月官宣,改進了文字拼寫能力。
▲ Stable Diffusion 3 的拼寫能力 .
去年 12 月發布測試版的 Midjourney v6,是第一個具有可靠文本生成功能的 Midjourney 版本。
不過,它的要求也依然比較苛刻,除了必須把文字放在引号内,提示詞最好解釋文本的位置和書寫方式,并用到「印刷」「寫下」等關鍵詞,一到兩個詞的文本生成效果最好。
▲ Midjourney v6 的文本生成功能 .
被追趕的 Ideogram 團隊不慌,認為優勢在我,Ideogram 仍然擁有更高的準确率,并且能夠處理復雜的長句。
Ideogram 的系統評估也表明,Ideogram 1.0 渲染文本的準确性最高,與 DALL · E 3 等其他模型相比,錯誤率降低了近 2 倍。
光説不練假把式,不如拿相同的提示詞,讓 Ideogram 1.0 和 Midjourney V6、DALL · E 3 同台競技。
先來比較生成文本的準确度,我要求 AI 們繪制一幅浮世繪風格的日出插圖,《飄》的經典台詞「明天又是新的一天」放置在合适的位置,表現希望和新生。
這次,Ideogram 完勝,拼寫準确,線條和色彩的設計也很大膽和出眾。
向來差點藝術細胞的 DALL · E 竟然意外得有質感,文字基本對了但沒完全對,畫風更加抽象,Midjourney 不僅文字不準确,審美也落了下風,甚至沒有認真聽題。
▲ 左為 DALL · E,右為 Midjourney.
二是比拼造梗能力,Ideogram 官方特意提到了生成表情包的功能,借助「魔法提示」,AI 會發揮自己的想象力擴寫提示詞,配上文案,讓圖片有感情色彩。
我想看 AI 能不能生成打工貓表情包,于是輸入了提示詞:「畫一個有趣的梗圖,關于一只戴着領結和襯衫、在電腦前打字的淚流滿面的貓,比喻人類打工的辛苦。」
Ideogram 發揮腦洞,自覺地加了句文案「貓也得工作」。
美中不足的是多了個「have」,前爪的指頭數量也不對,看來 AI 不僅僅對人手犯難,拿貓爪也沒轍。對比原版表情包,算是中規中矩,不能像「流淚貓貓頭」一擊即中。
▲ 左為網圖,右為 Ideogram.
Midjourney 的貓嚴肅且優雅,仿佛是個已經财富自由的作家,看起來更像在拍雜志寫真,但這滑鼠不知道怎麼回事。
▲ 左為 Midjourney,右為 DALL · E.
DALL · E 情感最為到位,畫風雖然随意了些,但粗糙有粗糙的好處,仿佛不在一個圖層的面條淚有内味了,真的很适合拿來當表情包用。
三是對復雜的長提示詞的理解能力,尤其是提示詞的元素是否齊全、出現的位置是否準确,所以我輸入了比較啰嗦的提示詞,規定了各個主體的位置。
Ideogram 在整體構圖上表現得更好,提示詞説到的幾個要點都覆蓋了,心形牌子、機器人、宇航員、氣球和獎牌都有,雖然宇航員的手、獎牌的字等細節出了問題。
相比之下,Midjourney 更有藝術感,但要素缺失,又多了些有的沒的裝飾,更有自己的想法和個性,DALL · E 不僅要素缺失,細節出錯,還不好看。
▲ 上為 Midjourney,下為 DALL · E.
所以抛開文字,光看出圖質量,Ideogram 也不差,有時候對提示詞裏各個物體空間關系的還原,比其他 AI 還要更加準确。
從使用體驗來説,Ideogram 的生成速度比 Midjourney 快,一般十幾秒就能完成四張圖片。
甚至根據行業的評估規則,人類評估者在提示對齊、影像連貫性、整體偏好和文本渲染質量方面,更喜歡 Ideogram 1.0,而不是 DALL · E 3 和 Midjourney V6。
哪怕你不滿意 Ideogram 生成的圖,把它的魔法提示詞拿去用,在 Midjourney 和 DALL · E 的生成效果,可能也比自己手搓更好,不失為一種優化提示詞的方式。
沒人能在我的 BGM 裏打敗我,但同個提示詞給不同 AI 使用,勝負還真不一定。
Google 工程師創辦的明星公司,接地氣的 AI 產品
Ideogram 成立于去年 8 月,今年 2 月推出最新的模型 Ideogram 1.0。
這又是一家明星公司,創始團隊共 7 人,來自 Google Brain、加州大學伯克利分校、卡内基梅隆大學和多倫多大學,其中 4 位是 Google 文生圖擴散模型 Imagen 研究論文的作者。
謹小慎微的 Google 經常在推出產品時慢半拍,多次眼睜睜看着對手在全球聲名大噪,聊天機器人被 ChatGPT 搶先,Imagen 也被 DALL · E 2 超車。
從工程師們的角度看,研究成果無法落地為面向消費者的應用并非好事。不少人選擇了離開,親自打造新的產品,盡量開放使用,先積累下用户規模和口碑。
Ideogram 一天 25 次提示詞的免費額度,可能也是出于這樣的考慮。
市場很看好這個產品,Ideogram 完成了硅谷風投 a16z 領投的 8000 萬美元 A 輪融資,投資者中還有 AI 大神,包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。
其實在體驗了很多 AI 產品之後,我暗暗有一個疑問:怎麼定義一款產品的好用?
▲ Ideogram 生成的 T 恤圖案 .
之前讓我覺得好用的,是插件「沉浸式翻譯」,它不像 Google 翻譯覆蓋原文,可以中英文對照,不僅是新聞網頁,X 信息流、YouTube 字幕、PDF 檔案,都能用上。
Ideogram 似乎也是這樣接地氣。一方面,它可以更加精準地生成用户所需的文字内容,并适配各種風格的圖片。另一方面,它也能無中生有,為圖片配上契合的文字,比如表情包。
雖然 Ideogram 生成的結果很多也不能拿來就用,但至少基本符合提示詞要求,文字大多可讀。
我也在體驗中發現, Ideogram 的寫實類圖片一般,但塗鴉、插圖、繪畫方面不錯,藝術天賦向 Midjourney 看齊。
▲ Ideogram 生成的塗鴉藝術插圖 .
Ideogram 的官網還有各種作品的熱度排行榜。打開網站的瞬間,你仿佛誤入了一個 ins 風的圖片社區,上面的提示詞也都可以學習。
當 AI 工具兼具了創意、便利和分享,就很容易讓人上頭,具體的表現是,一天的 25 次提示詞很快用完,這焦急的感覺,和等待 Suno 的積分更新差不多。
如果是每月 7 美元或者 16 美元的會員,除了更多生成次數,Ideogram 還提供了影像上傳和編輯器的功能。
影像上傳指的是,用户上傳自己的圖片,然後通過 Remix 功能再創作。
▲ 左為原圖,右為輸出 .
編輯器除了裁剪、縮放等常規功能,還有一個很有意思的繪圖工具,從一幅抽象的圖畫生成圖片。人類的畫工粗糙勾勒各個元素的形狀、構圖、顏色等,AI 負責化腐朽為神奇,有些神筆馬良的既視感。
Ideogram 能從血雨腥風裏殺出,好用當然是最重要的,同時它的定位也很準确。
如果美學是最重要的标準,那麼 Midjourney 一騎絕塵。雖然 DALL · E 的水平時好時壞,但内置于 ChatGPT 調用方便,開源的 Stable Diffusion 則帶來了自由。
單論用户規模,Ideogram 可能哪個都打不過,但它的長板做得很好,應當也能收獲自己穩固的閱聽人。
至少免費可用的 AI 影像生成器裏面,Ideogram 的整體質量領先,網頁使用方便,提供免費額度,文本渲染強大,魔法提示功能和創作者社區提供創意和靈感。
文生圖模型們還遠非完美,仍在努力地還原物理世界,或者向畫家和設計師看齊。更多的 Ideogram,或許仍能找到自己的一席之地。
這也正是 AI 競争的殘酷和魅力所在,不知道誰能笑到最後,但永遠有新的對手瞄準阿喀琉斯之踵加入。