今天小编分享的互联网经验:Google发布Imagen 2,解决经典六指人问题,AI文生图卷起来了,欢迎阅读。
文|王怡宁
编辑|邓咏仪
几周前,Pika 1.0 带着炫酷的官方宣传视频强势出道,将所有人的目光吸引到了文生视频赛道。
只需输入一段文字就能得到好莱坞电影质感的视频,Pika 又一次丰富了人们对 AI 生成式内容的想象力,也把压力给到了文生图领網域的 " 前辈 " 们。不过,就在上周,Google Deepmind 在时隔一年半后,带着 Imagen 2 强势回归。除了更逼真的影像呈现效果,功能上也有多重更新,让文生图赛道的战局又变得有趣了一些。
珠玉在前,Imagen 2 一经发布就面临网友们的灵魂拷问:" 你们的模型好在哪里呢?"
△图源:Twitter
理解力更强,告别 AI 六指人
先上结论,更新版的 Imagen 2 确实有点东西!以下是几个关键看点:
1、使用自然语言生成高分辨率且更加逼真的影像。
不妨先看看下面这张图,是不是一张再普通不过的照片?
△图源:Imagen 2
但如果告诉你,这其实是由 Imagen 2 生成的呢?
Prompt: A shot of a 32-year-old female, up and coming conservationist in a jungle; athleticwith short, curly hair and a warm smile.
仅仅依靠以上这串提示词,你就能用 Imagen 2 得到一张以假乱真的图片,这已经非常直观地展示了 Imagen 2 强调的高质量、高分辨率和逼真的特点。
和其他主流文生图工具对比,Imagen 2 的表现也算相当出色。
尤其值得一提的是,Imagen 2 还解决了过去 AI 生成图片处理不好人的手部和脸部细节的问题,这也意味着,用户终于可以不用担心看到离谱的 " 三手六指 " 人了。
这次,Imagen 2 甚至还更进一步,开始考虑用户的审美偏好!
DeepMind 为 Imagen 2 训练了一个特殊的" 影像美学模型 ",以人对光线、取景、曝光、清晰度等特质的偏好为基准,为每张图片打分。也就是说,Imagen 2 现在更懂人类的审美了。
比如,用 " 花 " 作为提示词,基于人类的审美从左到右分数逐步提高。
以同样一段出自《白鲸》的文字为例,Midjourney 和 Meta AI 生成的内容不仅不太贴合人类的审美,还有些怪异。
Prompt: Consider the subtleness of the sea; how its most dreaded creatures glide under water, unapparent for the most part, and treacherously hidden beneath the loveliest tints of azure)
Imagen 2 和 DALL · E 3 表现更胜一筹,本质还是它们背靠的 Google 和 OpenAI 技术优势显著。拿 Imagen 2 来说,Google 为这个新版本工具提供了内部最先进的文本到影像扩散技术(text-to-image diffusion technology),这种技术让 Imagen 2 不仅可以更准确地理解用户提示词的含义,也让图片质量又提升了一个层次。
此外,Imagen 2 给了用户更多的自由空间去编辑他们的影像,比如让人眼前一亮修补(inpainting)功能,允许用户在原始图片中直接生成新的内容。
2、生成各类商标,还允许添加数字水印
Imagen 2 可以生成各类用于商业领網域的 Logo,让企业和品牌轻松实现商标自由。
当然,更重要的是安全问题,比如,加个水印。添加水印的功能并不特别,难点在于如何有水平地加水印。在这一点上,Imagen 2 为用户提供了一个完美的解决方案。
Imagen2 在设计中集成了 SynthID,这是一种用于加水印和识别 AI 生成内容的尖端工具包,这使得通过 Imagen 2 添加的数字水印肉眼无法察觉,且不会影响影像质量。
△图源:Google DeepMind
这种数字水印还非常 " 牢固 "。不论是加滤镜、压缩体积、更改亮度,还是删除部分内容,水印都仍然能被检测到。
可以说,这项功能直击企业客户的痛点,对他们来说相当有价值。Google 在他们的官网展示了客户之一,一家中国的知名设计和素材平台,对产品的评价,称 Imagen 已经帮助他们生成了数以百万计的影像,还尽可能减少了版权方面的摩擦。
3、支持多语言文本渲染和视觉问答
Imagen 2 还提供文本渲染支持,又解决了以往文生图的一个技术难点。例如,如果提示模型生成具有特定单词或短语的对象图片,那么确保正确的短语是输出影像的一部分就很困难。
Image 2 就解决了这个问题,对于企业想要在图片中露出正确的品牌信息尤其有帮助。
除了英语,Imagen2 预览版还支持中文、印地语、日语、韩语、葡萄牙语、英语和西班牙语 6 种语言,多语言版本预计将在 2024 年年初发布。
One More Thing
从 Imagen 2 的实测表现来看,Google 在 Imagen 1 发布后的一年半里确实在取得了不小的研究成果,大有在文生图领網域弯道超车的势头在。
当然,不同于被大众称作 " 竞品 " 的 DALL · E 3 和 Midjourney,Imagen 2 只是家大业大的 Google 业务中的一小部分。在过去的两周内,Google 还发布了他们更重要的大模型产品 Gemini(显然也是最核心的业务之一),和针对医疗行业进行微调的模型 MedLM。
就在上周末,Google 又推出了新的视觉语言模型 PixelLLM,逐词定位功能让人眼前一亮,不仅能够对图片内容作出准确描述,还能精确指出图中每个词汇所对应的位置,可以说是在 2023 年的末尾又狠狠地 " 卷 " 了一把同行们。
从上面的一系列动作来看,Google 更想做一个在 AI 领網域 " 全面发展 " 的优等生。Imagen 2 的发布对于 Google 接下来 AI 业务的长远发展有着不小的意义,它拥有的强大的文本理解能力、制作高分辨率图片等能力有望在未来为 Google 更多的业务提供底层的技术支持。
美中不足的是,Imagen 2 目前主要通过 Vertex AI 开放给 Google Cloud 的企业用户,而非直接开放给个人用户,此举也被一部分网友批评开放范围太小。
就在 Imagen 2 发布的同一天,文生图赛道的另一家明星公司 Midjourney 也正式上线了 alpha 版本,通过設定右侧滑块一键调整图片比例等功能提升了用户友好度,不过这些小规模更新似乎没有满足用户的期待。
不知道是否受了 Imagen 2 发布消息的影响,Midjourney 在 12 月 17 日宣布将在下周更新 V6 版本,距离上一个版本已经时隔半年。从目前流出的一些图片来看,V6 处理复杂信息的能力有明显提高,下周正式上线的版本值得期待,恐怕也免不了被拿来和 Imagen 2 一较高下。
比起文生视频工具惊艳但还不太稳定的发挥,Imagen 2 的更新更像是 Google 在基础的视觉语言处理方面迈出的扎实一步,让 AI 学习人类审美来制图,是一种颇有意义的探索和进步。
扫码加入「智涌 AI 交流群」
欢迎交流