摄影师危险了！Midjourney v6公测，相片级真实细节

今天小编分享的科技经验：摄影师危险了！Midjourney v6公测，相片级真实细节，欢迎阅读。

文 / 腾讯科技郝博阳

12 月 21 日，Midjourney 在 Discord 上宣布其最新版本 v6 的测试版发布。该模型经过了 9 个月的训练，虽然缺乏明确的 benchmark 比较，就目前网友测试展现出来的能力来看，它可以被称为当下最先进的文生图模型。这次发布出的模型水平不光卷翻设计圈，也直接卷倒了摄影圈。

（先来点真实性震撼 )

Midjourney 历代全家福：

从官方 Discord 介绍上看，这一次 Midjourney 的模型提升主要在以下几个方面：

1）更准确的提示遵循以及更长的提示词上下文长度。

据已参与测试的用户通过实测后表示 v6 现在支持的提示词长度超过 350 个字元；当前版本在提示里可以指定多个主题 / 颜色和其他细节。

在准确遵循提示这点上，从网友测试来看提升也很明显。

比如当用法语测试时，v6 模型生成的影像明显更符合提示词的具体语义：有拳击手套，面带一点微笑。

下面这个例子更明显，v5.2 数不到 1000。

动作理解的提升：v5.2 理解不了躺着，想再爬起来卷。v6 就彻底躺平了。

2）改进的连贯性和模型知识

在公告中，Midjourney 表示

● v6 对提示现在更敏感。别再用像 " 令人印象深刻的，逼真的，4k，8k" 这样的无用词汇了。

● 明确表达你想要的。虽然它可能没那么有意思，但当你明确表达时，它就能在理解你的意图这方面做得更好。

据用户测试，v6 甚至能够理解标点和语法的细微差别。这一更新其实会对整个用户体验产生较大的影响。过去偏向于炼丹式的提示词可能将被更细致的描述取代。这到底是提高还是降低了新手门槛，还真不好说。

针对这个改变，一名设计师给出了当前最适合 Midjourney 的新提示技巧：核心就是一个清晰不炫技，结构化表达。

在模型知识方面 v6 的进化有一个小细节非常有代表性。下面例子里的提示词是日本女性。v6 能分清颇为微妙的不同亚洲族裔之间的相貌区别。比起 v5.2，影像中女子的外形确实更有日本特征。这种欧洲人根本理解不了的亚洲长相差异也被 AI 拿捏了。

（左 v5.2，右 v6）

3）改进的影像提示和混合

在这里，改进的影像提示其实更多是指按提升生成影像能力的提升，即能够根据文本提示创建更精细和逼真的影像。而改善的影像混合是指 v6 能使得不同元素和风格的结合更加和谐自然。

从网友的测试来看，v6 的影像生成能力确实有明显的提升。相较于 v5.2，v6 的影像确实更偏向于丰富和细腻逼真。v5.2 其实从细节度上来讲已经可以到 " 乱真 " 的程度了，但 v6 的感觉是 " 真 "，而非 " 仿真 "。提示词对的话，结果甚至有一种相机直出的真实质感。

比如这两盘土豆炖牛肉，明显右侧 v6 版本的会更让人有食欲。

（左：v5.2 右 v6）

环境还原能力上看，差异也非常明显：v6 版本的罗马帝国市场，不说你会以为是《罗马》剧组的场景。而 v5.2 就略显平面，房子也略有些奇怪。

（上 v6，下 v5.2）

这两组图的对比差异就更明显了。提示词都是纪录片风格，上面真的很纪录，而下面那组细看问题还是很多，缺乏真实的光影和细节深度。

上为 v6，下为 v5.2

人像方面，其实 v5 已经做到相当还原了。但在 v6 中，脸上的小疙瘩，帽檐上的褶皱与污迹，鼻子上紧贴弧线充满变化的光影让 v5.2 的照片看起来更像是美颜过的，太平面了。就算同样是雀斑，v6 的表现也更让人信服，充满符合人体呈现的集中性，而非平铺感。

v5.2

4）文本绘制能力提升

简单来说，v6 现在可以在影像中更明确地绘制文本，甚至可以规定其风格。为了获得最佳效果，文本应该用引号标出。这样做可以帮助模型区分哪些是描述性的提示，哪些是实际要在影像中呈现的文本。例如，如果用户想要生成一张影像，上面写着用马克笔在便利贴上写的 "Hello World!"，他们可以使用类似于以下的提示："imagine a photo of the text 'Hello World!' written with a marker on a sticky note --ar 16:9 --v 6"

这一点在测试中也非常清晰的展示出来了。现在 v6 对文字的处理正确率大幅提高，而且嵌入感也更好。

然而可惜的是英文之外还是鬼画符。但 v6 已经能够完全进行符合画面的风格化文字创作了。

另一个例子中，可口可乐的字体被完全完美还原。

再来个标志设计图——文字完美贴合画面风格。设计师最后的阵地有点守不住了。

Midjourney v6 展现出的强大能力看起来对摄影师和设计团队形成了更加真实的威胁——目前它展现出的审美，和谐的氛围能力已经直追高端摄影师。最可怕还不是它展现出的实力，而是它进化的速度——在 Midjourney 的公告中，他们还表示：v6 的速度、影像质量、连贯性、提示遵循和文本准确性在未来几周内应该会提高。而 v6 beta 在发布半个小时之后宣布了第一次更新，生成速度提升了 2.7 倍。