打敗 Midjourney，這個 Google 大牛推出的 AI 產品憑什麼彎道超車 - 大酷樂

今天小編分享的科技經驗：打敗 Midjourney，這個 Google 大牛推出的 AI 產品憑什麼彎道超車，歡迎閲讀。

沒有誰能一直稱王，但加上前綴誰都有稱王的機會。

AI 文生圖，還能玩出什麼新花樣？

在這片群雄割據的紅海，頭部被 Midjourney、DALL · E、Stable Diffusion 等占據，其餘還能讓人眼前一亮的產品并不多。

然而，仍有黑馬殺出：Ideogram，前 Google 工程師創立，硅谷 AI 大神投資，去年 8 月面世，2 月底發布了最新的模型。

Ideogram 的特别在于，擅長生成包含文本的圖片，這恰恰是幾大巨頭都在改善的難題。

事實證明，從别人跌倒的地方爬起來，不失為一種彎道超車的方式。

能「畫圖」和「攝影」，但 AI 可能還是個「文盲」

讓 AI 精準生成文字，向來是個痛點，哪怕生成的人物和風景像相機拍出來的，如同亂碼的扭曲文字，瞬間讓 AI 原形畢露。

▲ Midjourney v5.2 生成的錯誤文字 .

Ideogram 站出來表示，拒絕讓 AI 繼續做個「文盲」，不妨先從它開始。

接觸 Ideogram 的門檻很低，打開網頁（https://ideogram.ai/）登錄就能用，界面看起來也清爽不復雜。

生成一張圖片的步驟不多，在輸入框填完提示詞，再根據你想要的效果，勾選圖片長寬比，以及照片、海報、3D 渲染等圖片樣式。

Ideogram 還考慮到了人類可能是提示詞「苦手」，今年 2 月推出了「魔法提示」，這就像一個内置的 ChatGPT，幫你完善提示詞，由 AI 拿捏同類的心思。

包含文本内容的圖片有哪些？產品标志、T 恤印花、書籍封面、電影海報 ......

我們先來個入門級考驗，讓幾個人舉起寫着動物名稱的指示牌，乍看文本對了，但臉和手不太正常，兩者相互抵消，原來短板沒有消失，只是轉移了。

如果只讓 Ideogram 寫字，效果便驚豔得多。

讓 AI 生成馬斯克的經典句子「我寧願樂觀而錯誤，也不願悲觀而正确」，除了「W」有瑕疵，其他單詞都寫對了。

字體活潑了些，70 後的馬斯克不知道能不能接受，但碰撞的黑白色，應該能讓爆改小藍鳥的他滿意。

再拿經典諺語「只工作不玩耍，聰明的孩子也變傻」作為考題，雖然提示詞強調了使用印表機字體，但 Ideogram 沒能做到。看來光用提示詞還不能定義字體，只能取個近似值。

接着，命令 AI 為一家叫作「Coffee AI」的 AI 初創公司設計 logo。

主體是個電路圖案的咖啡杯，右上角有個機器人咖啡師，公司名稱用粗體大寫字母寫成，排版簡單和克制，作為 logo 來看很直觀，但總體來説在意料之中，很難讓甲方心動拍板。

該給 AI 上難度了，句子更長，對設計的要求更高。

我要求 Ideogram 為兒童繪本設計内頁，不僅要在醒目的位置寫着「穿襪子的狐狸和戴禮帽的兔子」，底部還得标注「匿名」。

對于這兩行文字，Ideogram 基本完成了任務，用上了手繪字體和粉筆塗鴉，甚至配了符合題意的插圖，繪本的味道對了，但錯誤也很顯眼，「in」這個單詞有些問題，兔子長得像狐狸還和狐狸稱兄道弟。

Ideogram 同樣可以拿來電影海報，不妨拿前段時間爆火的、阮經天主演的電影《周處除三害》試試水。

我在提示詞裏雜糅了典故和電影，背景用到俠士剪影、海、山的意象，文字部分參考電影的英文名：豬、蛇和鴿子。

除了漏了一個「the」，最終的海報效果還不錯，融合了古典的形象和現代的字體，鴿子塗鴉堪稱點睛之筆，但總體更像西幻風，讓人覺得陌生，很難聯想到電影的劇情。

體驗下來發現，其實 Ideogram 在文字上出錯的概率不小，有時候生成兩三次，才能得到一字不差的理想結果。

就算文本對了，人物的臉和手指經常翻車。

它可能還會加些花裏胡哨的小動作，随機生成無意義且扭曲的文字，自己打臉自己。

▲ 這裏的小字就糊成一團了 .

但總體來説，Ideogram 讓人驚喜，可以寫對長句子，并且用上合适的字體和排版方式配合畫面氛圍，盡管目前還不能寫中文，但如同鬼畫符的幾個字非常貼合衣服褶皺。

▲ 這四個字其實是「恭喜發财」.

瑕不掩瑜，Ideogram 的就業場景已經很多了。設計 logo、海報、T 恤圖案時，它都可以作為靈感參考和創意輔助。

以前擔心 AI 會「畫畫」和「攝影」，以後還怕 AI 有文化和會設計。

審美不輸 Midjourney，還是個表情包神器

AI 的進步按天衡量，可能一覺醒來世界就發生了變化。雖然 Ideogram 表示自己的文本渲染能力最強，但對手們也不服輸。

還未公開發布和開源的 Stable Diffusion 3 在 2 月官宣，改進了文字拼寫能力。

▲ Stable Diffusion 3 的拼寫能力 .

去年 12 月發布測試版的 Midjourney v6，是第一個具有可靠文本生成功能的 Midjourney 版本。

不過，它的要求也依然比較苛刻，除了必須把文字放在引号内，提示詞最好解釋文本的位置和書寫方式，并用到「印刷」「寫下」等關鍵詞，一到兩個詞的文本生成效果最好。

▲ Midjourney v6 的文本生成功能 .

被追趕的 Ideogram 團隊不慌，認為優勢在我，Ideogram 仍然擁有更高的準确率，并且能夠處理復雜的長句。

Ideogram 的系統評估也表明，Ideogram 1.0 渲染文本的準确性最高，與 DALL · E 3 等其他模型相比，錯誤率降低了近 2 倍。

光説不練假把式，不如拿相同的提示詞，讓 Ideogram 1.0 和 Midjourney V6、DALL · E 3 同台競技。

先來比較生成文本的準确度，我要求 AI 們繪制一幅浮世繪風格的日出插圖，《飄》的經典台詞「明天又是新的一天」放置在合适的位置，表現希望和新生。

這次，Ideogram 完勝，拼寫準确，線條和色彩的設計也很大膽和出眾。

向來差點藝術細胞的 DALL · E 竟然意外得有質感，文字基本對了但沒完全對，畫風更加抽象，Midjourney 不僅文字不準确，審美也落了下風，甚至沒有認真聽題。

▲ 左為 DALL · E，右為 Midjourney.

二是比拼造梗能力，Ideogram 官方特意提到了生成表情包的功能，借助「魔法提示」，AI 會發揮自己的想象力擴寫提示詞，配上文案，讓圖片有感情色彩。

我想看 AI 能不能生成打工貓表情包，于是輸入了提示詞：「畫一個有趣的梗圖，關于一只戴着領結和襯衫、在電腦前打字的淚流滿面的貓，比喻人類打工的辛苦。」

Ideogram 發揮腦洞，自覺地加了句文案「貓也得工作」。

美中不足的是多了個「have」，前爪的指頭數量也不對，看來 AI 不僅僅對人手犯難，拿貓爪也沒轍。對比原版表情包，算是中規中矩，不能像「流淚貓貓頭」一擊即中。

▲ 左為網圖，右為 Ideogram.

Midjourney 的貓嚴肅且優雅，仿佛是個已經财富自由的作家，看起來更像在拍雜志寫真，但這滑鼠不知道怎麼回事。

▲ 左為 Midjourney，右為 DALL · E.

DALL · E 情感最為到位，畫風雖然随意了些，但粗糙有粗糙的好處，仿佛不在一個圖層的面條淚有内味了，真的很适合拿來當表情包用。

三是對復雜的長提示詞的理解能力，尤其是提示詞的元素是否齊全、出現的位置是否準确，所以我輸入了比較啰嗦的提示詞，規定了各個主體的位置。

Ideogram 在整體構圖上表現得更好，提示詞説到的幾個要點都覆蓋了，心形牌子、機器人、宇航員、氣球和獎牌都有，雖然宇航員的手、獎牌的字等細節出了問題。

相比之下，Midjourney 更有藝術感，但要素缺失，又多了些有的沒的裝飾，更有自己的想法和個性，DALL · E 不僅要素缺失，細節出錯，還不好看。

▲ 上為 Midjourney，下為 DALL · E.

所以抛開文字，光看出圖質量，Ideogram 也不差，有時候對提示詞裏各個物體空間關系的還原，比其他 AI 還要更加準确。

從使用體驗來説，Ideogram 的生成速度比 Midjourney 快，一般十幾秒就能完成四張圖片。

甚至根據行業的評估規則，人類評估者在提示對齊、影像連貫性、整體偏好和文本渲染質量方面，更喜歡 Ideogram 1.0，而不是 DALL · E 3 和 Midjourney V6。

哪怕你不滿意 Ideogram 生成的圖，把它的魔法提示詞拿去用，在 Midjourney 和 DALL · E 的生成效果，可能也比自己手搓更好，不失為一種優化提示詞的方式。

沒人能在我的 BGM 裏打敗我，但同個提示詞給不同 AI 使用，勝負還真不一定。

Google 工程師創辦的明星公司，接地氣的 AI 產品

Ideogram 成立于去年 8 月，今年 2 月推出最新的模型 Ideogram 1.0。

這又是一家明星公司，創始團隊共 7 人，來自 Google Brain、加州大學伯克利分校、卡内基梅隆大學和多倫多大學，其中 4 位是 Google 文生圖擴散模型 Imagen 研究論文的作者。

謹小慎微的 Google 經常在推出產品時慢半拍，多次眼睜睜看着對手在全球聲名大噪，聊天機器人被 ChatGPT 搶先，Imagen 也被 DALL · E 2 超車。

從工程師們的角度看，研究成果無法落地為面向消費者的應用并非好事。不少人選擇了離開，親自打造新的產品，盡量開放使用，先積累下用户規模和口碑。

Ideogram 一天 25 次提示詞的免費額度，可能也是出于這樣的考慮。

市場很看好這個產品，Ideogram 完成了硅谷風投 a16z 領投的 8000 萬美元 A 輪融資，投資者中還有 AI 大神，包括 Google 首席科學家 Jeff Dean、OpenAI 創始團隊成員 Andrej Karpathy。

其實在體驗了很多 AI 產品之後，我暗暗有一個疑問：怎麼定義一款產品的好用？

▲ Ideogram 生成的 T 恤圖案 .

之前讓我覺得好用的，是插件「沉浸式翻譯」，它不像 Google 翻譯覆蓋原文，可以中英文對照，不僅是新聞網頁，X 信息流、YouTube 字幕、PDF 檔案，都能用上。

Ideogram 似乎也是這樣接地氣。一方面，它可以更加精準地生成用户所需的文字内容，并适配各種風格的圖片。另一方面，它也能無中生有，為圖片配上契合的文字，比如表情包。

雖然 Ideogram 生成的結果很多也不能拿來就用，但至少基本符合提示詞要求，文字大多可讀。

我也在體驗中發現， Ideogram 的寫實類圖片一般，但塗鴉、插圖、繪畫方面不錯，藝術天賦向 Midjourney 看齊。

▲ Ideogram 生成的塗鴉藝術插圖 .

Ideogram 的官網還有各種作品的熱度排行榜。打開網站的瞬間，你仿佛誤入了一個 ins 風的圖片社區，上面的提示詞也都可以學習。

當 AI 工具兼具了創意、便利和分享，就很容易讓人上頭，具體的表現是，一天的 25 次提示詞很快用完，這焦急的感覺，和等待 Suno 的積分更新差不多。

如果是每月 7 美元或者 16 美元的會員，除了更多生成次數，Ideogram 還提供了影像上傳和編輯器的功能。

影像上傳指的是，用户上傳自己的圖片，然後通過 Remix 功能再創作。

▲ 左為原圖，右為輸出 .

編輯器除了裁剪、縮放等常規功能，還有一個很有意思的繪圖工具，從一幅抽象的圖畫生成圖片。人類的畫工粗糙勾勒各個元素的形狀、構圖、顏色等，AI 負責化腐朽為神奇，有些神筆馬良的既視感。

Ideogram 能從血雨腥風裏殺出，好用當然是最重要的，同時它的定位也很準确。

如果美學是最重要的标準，那麼 Midjourney 一騎絕塵。雖然 DALL · E 的水平時好時壞，但内置于 ChatGPT 調用方便，開源的 Stable Diffusion 則帶來了自由。

單論用户規模，Ideogram 可能哪個都打不過，但它的長板做得很好，應當也能收獲自己穩固的閱聽人。

至少免費可用的 AI 影像生成器裏面，Ideogram 的整體質量領先，網頁使用方便，提供免費額度，文本渲染強大，魔法提示功能和創作者社區提供創意和靈感。

文生圖模型們還遠非完美，仍在努力地還原物理世界，或者向畫家和設計師看齊。更多的 Ideogram，或許仍能找到自己的一席之地。

這也正是 AI 競争的殘酷和魅力所在，不知道誰能笑到最後，但永遠有新的對手瞄準阿喀琉斯之踵加入。