Google发布Imagen 2，解决经典六指人问题，AI文生图卷起来了

今天小编分享的互联网经验：Google发布Imagen 2，解决经典六指人问题，AI文生图卷起来了，欢迎阅读。

文｜王怡宁

编辑｜邓咏仪

几周前，Pika 1.0 带着炫酷的官方宣传视频强势出道，将所有人的目光吸引到了文生视频赛道。

只需输入一段文字就能得到好莱坞电影质感的视频，Pika 又一次丰富了人们对 AI 生成式内容的想象力，也把压力给到了文生图领網域的 " 前辈 " 们。不过，就在上周，Google Deepmind 在时隔一年半后，带着 Imagen 2 强势回归。除了更逼真的影像呈现效果，功能上也有多重更新，让文生图赛道的战局又变得有趣了一些。

珠玉在前，Imagen 2 一经发布就面临网友们的灵魂拷问：" 你们的模型好在哪里呢？"

△图源：Twitter

理解力更强，告别 AI 六指人

先上结论，更新版的 Imagen 2 确实有点东西！以下是几个关键看点：

1、使用自然语言生成高分辨率且更加逼真的影像。

不妨先看看下面这张图，是不是一张再普通不过的照片？

△图源：Imagen 2

但如果告诉你，这其实是由 Imagen 2 生成的呢？

Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.

仅仅依靠以上这串提示词，你就能用 Imagen 2 得到一张以假乱真的图片，这已经非常直观地展示了 Imagen 2 强调的高质量、高分辨率和逼真的特点。

和其他主流文生图工具对比，Imagen 2 的表现也算相当出色。

尤其值得一提的是，Imagen 2 还解决了过去 AI 生成图片处理不好人的手部和脸部细节的问题，这也意味着，用户终于可以不用担心看到离谱的 " 三手六指 " 人了。

这次，Imagen 2 甚至还更进一步，开始考虑用户的审美偏好！

DeepMind 为 Imagen 2 训练了一个特殊的" 影像美学模型 "，以人对光线、取景、曝光、清晰度等特质的偏好为基准，为每张图片打分。也就是说，Imagen 2 现在更懂人类的审美了。

比如，用 " 花 " 作为提示词，基于人类的审美从左到右分数逐步提高。

以同样一段出自《白鲸》的文字为例，Midjourney 和 Meta AI 生成的内容不仅不太贴合人类的审美，还有些怪异。

Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure）

Imagen 2 和 DALL · E 3 表现更胜一筹，本质还是它们背靠的 Google 和 OpenAI 技术优势显著。拿 Imagen 2 来说，Google 为这个新版本工具提供了内部最先进的文本到影像扩散技术（text-to-image diffusion technology），这种技术让 Imagen 2 不仅可以更准确地理解用户提示词的含义，也让图片质量又提升了一个层次。

此外，Imagen 2 给了用户更多的自由空间去编辑他们的影像，比如让人眼前一亮修补（inpainting）功能，允许用户在原始图片中直接生成新的内容。

2、生成各类商标，还允许添加数字水印

Imagen 2 可以生成各类用于商业领網域的 Logo，让企业和品牌轻松实现商标自由。

当然，更重要的是安全问题，比如，加个水印。添加水印的功能并不特别，难点在于如何有水平地加水印。在这一点上，Imagen 2 为用户提供了一个完美的解决方案。

Imagen2 在设计中集成了 SynthID，这是一种用于加水印和识别 AI 生成内容的尖端工具包，这使得通过 Imagen 2 添加的数字水印肉眼无法察觉，且不会影响影像质量。

△图源：Google DeepMind

这种数字水印还非常 " 牢固 "。不论是加滤镜、压缩体积、更改亮度，还是删除部分内容，水印都仍然能被检测到。

可以说，这项功能直击企业客户的痛点，对他们来说相当有价值。Google 在他们的官网展示了客户之一，一家中国的知名设计和素材平台，对产品的评价，称 Imagen 已经帮助他们生成了数以百万计的影像，还尽可能减少了版权方面的摩擦。

3、支持多语言文本渲染和视觉问答

Imagen 2 还提供文本渲染支持，又解决了以往文生图的一个技术难点。例如，如果提示模型生成具有特定单词或短语的对象图片，那么确保正确的短语是输出影像的一部分就很困难。

Image 2 就解决了这个问题，对于企业想要在图片中露出正确的品牌信息尤其有帮助。

除了英语，Imagen2 预览版还支持中文、印地语、日语、韩语、葡萄牙语、英语和西班牙语 6 种语言，多语言版本预计将在 2024 年年初发布。

One More Thing

从 Imagen 2 的实测表现来看，Google 在 Imagen 1 发布后的一年半里确实在取得了不小的研究成果，大有在文生图领網域弯道超车的势头在。

当然，不同于被大众称作 " 竞品 " 的 DALL · E 3 和 Midjourney，Imagen 2 只是家大业大的 Google 业务中的一小部分。在过去的两周内，Google 还发布了他们更重要的大模型产品 Gemini（显然也是最核心的业务之一），和针对医疗行业进行微调的模型 MedLM。

就在上周末，Google 又推出了新的视觉语言模型 PixelLLM，逐词定位功能让人眼前一亮，不仅能够对图片内容作出准确描述，还能精确指出图中每个词汇所对应的位置，可以说是在 2023 年的末尾又狠狠地 " 卷 " 了一把同行们。