Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了

今天小編分享的互聯網經驗：Google發布Imagen 2，解決經典六指人問題，AI文生圖卷起來了，歡迎閲讀。

文｜王怡寧

編輯｜鄧詠儀

幾周前，Pika 1.0 帶着炫酷的官方宣傳視頻強勢出道，将所有人的目光吸引到了文生視頻賽道。

只需輸入一段文字就能得到好萊塢電影質感的視頻，Pika 又一次豐富了人們對 AI 生成式内容的想象力，也把壓力給到了文生圖領網域的 " 前輩 " 們。不過，就在上周，Google Deepmind 在時隔一年半後，帶着 Imagen 2 強勢回歸。除了更逼真的影像呈現效果，功能上也有多重更新，讓文生圖賽道的戰局又變得有趣了一些。

珠玉在前，Imagen 2 一經發布就面臨網友們的靈魂拷問：" 你們的模型好在哪裏呢？"

△圖源：Twitter

理解力更強，告别 AI 六指人

先上結論，更新版的 Imagen 2 确實有點東西！以下是幾個關鍵看點：

1、使用自然語言生成高分辨率且更加逼真的影像。

不妨先看看下面這張圖，是不是一張再普通不過的照片？

△圖源：Imagen 2

但如果告訴你，這其實是由 Imagen 2 生成的呢？

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

僅僅依靠以上這串提示詞，你就能用 Imagen 2 得到一張以假亂真的圖片，這已經非常直觀地展示了 Imagen 2 強調的高質量、高分辨率和逼真的特點。

和其他主流文生圖工具對比，Imagen 2 的表現也算相當出色。

尤其值得一提的是，Imagen 2 還解決了過去 AI 生成圖片處理不好人的手部和臉部細節的問題，這也意味着，用户終于可以不用擔心看到離譜的 " 三手六指 " 人了。

這次，Imagen 2 甚至還更進一步，開始考慮用户的審美偏好！

DeepMind 為 Imagen 2 訓練了一個特殊的" 影像美學模型 "，以人對光線、取景、曝光、清晰度等特質的偏好為基準，為每張圖片打分。也就是説，Imagen 2 現在更懂人類的審美了。

比如，用 " 花 " 作為提示詞，基于人類的審美從左到右分數逐步提高。

以同樣一段出自《白鲸》的文字為例，Midjourney 和 Meta AI 生成的内容不僅不太貼合人類的審美，還有些怪異。

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure）

Imagen 2 和 DALL · E 3 表現更勝一籌，本質還是它們背靠的 Google 和 OpenAI 技術優勢顯著。拿 Imagen 2 來説，Google 為這個新版本工具提供了内部最先進的文本到影像擴散技術（text-to-image diffusion technology），這種技術讓 Imagen 2 不僅可以更準确地理解用户提示詞的含義，也讓圖片質量又提升了一個層次。

此外，Imagen 2 給了用户更多的自由空間去編輯他們的影像，比如讓人眼前一亮修補（inpainting）功能，允許用户在原始圖片中直接生成新的内容。

2、生成各類商标，還允許添加數字水印

Imagen 2 可以生成各類用于商業領網域的 Logo，讓企業和品牌輕松實現商标自由。

當然，更重要的是安全問題，比如，加個水印。添加水印的功能并不特别，難點在于如何有水平地加水印。在這一點上，Imagen 2 為用户提供了一個完美的解決方案。

Imagen2 在設計中集成了 SynthID，這是一種用于加水印和識别 AI 生成内容的尖端工具包，這使得通過 Imagen 2 添加的數字水印肉眼無法察覺，且不會影響影像質量。

△圖源：Google DeepMind

這種數字水印還非常 " 牢固 "。不論是加濾鏡、壓縮體積、更改亮度，還是删除部分内容，水印都仍然能被檢測到。

可以説，這項功能直擊企業客户的痛點，對他們來説相當有價值。Google 在他們的官網展示了客户之一，一家中國的知名設計和素材平台，對產品的評價，稱 Imagen 已經幫助他們生成了數以百萬計的影像，還盡可能減少了版權方面的摩擦。

3、支持多語言文本渲染和視覺問答

Imagen 2 還提供文本渲染支持，又解決了以往文生圖的一個技術難點。例如，如果提示模型生成具有特定單詞或短語的對象圖片，那麼确保正确的短語是輸出影像的一部分就很困難。

Image 2 就解決了這個問題，對于企業想要在圖片中露出正确的品牌信息尤其有幫助。

除了英語，Imagen2 預覽版還支持中文、印地語、日語、韓語、葡萄牙語、英語和西班牙語 6 種語言，多語言版本預計将在 2024 年年初發布。

One More Thing

從 Imagen 2 的實測表現來看，Google 在 Imagen 1 發布後的一年半裏确實在取得了不小的研究成果，大有在文生圖領網域彎道超車的勢頭在。

當然，不同于被大眾稱作 " 競品 " 的 DALL · E 3 和 Midjourney，Imagen 2 只是家大業大的 Google 業務中的一小部分。在過去的兩周内，Google 還發布了他們更重要的大模型產品 Gemini（顯然也是最核心的業務之一），和針對醫療行業進行微調的模型 MedLM。

就在上周末，Google 又推出了新的視覺語言模型 PixelLLM，逐詞定位功能讓人眼前一亮，不僅能夠對圖片内容作出準确描述，還能精确指出圖中每個詞匯所對應的位置，可以説是在 2023 年的末尾又狠狠地 " 卷 " 了一把同行們。