攝影師危險了！Midjourney v6公測，相片級真實細節

今天小編分享的科技經驗：攝影師危險了！Midjourney v6公測，相片級真實細節，歡迎閱讀。

文 / 騰訊科技郝博陽

12 月 21 日，Midjourney 在 Discord 上宣布其最新版本 v6 的測試版發布。該模型經過了 9 個月的訓練，雖然缺乏明确的 benchmark 比較，就目前網友測試展現出來的能力來看，它可以被稱為當下最先進的文生圖模型。這次發布出的模型水平不光卷翻設計圈，也直接卷倒了攝影圈。

（先來點真實性震撼 )

Midjourney 歷代全家福：

從官方 Discord 介紹上看，這一次 Midjourney 的模型提升主要在以下幾個方面：

1）更準确的提示遵循以及更長的提示詞上下文長度。

據已參與測試的用戶通過實測後表示 v6 現在支持的提示詞長度超過 350 個字元；當前版本在提示裡可以指定多個主題 / 顏色和其他細節。

在準确遵循提示這點上，從網友測試來看提升也很明顯。

比如當用法語測試時，v6 模型生成的影像明顯更符合提示詞的具體語義：有拳擊手套，面帶一點微笑。

下面這個例子更明顯，v5.2 數不到 1000。

動作理解的提升：v5.2 理解不了躺着，想再爬起來卷。v6 就徹底躺平了。

2）改進的連貫性和模型知識

在公告中，Midjourney 表示

● v6 對提示現在更敏感。别再用像 " 令人印象深刻的，逼真的，4k，8k" 這樣的無用詞匯了。

● 明确表達你想要的。雖然它可能沒那麼有意思，但當你明确表達時，它就能在理解你的意圖這方面做得更好。

據用戶測試，v6 甚至能夠理解标點和語法的細微差别。這一更新其實會對整個用戶體驗產生較大的影響。過去偏向于煉丹式的提示詞可能将被更細致的描述取代。這到底是提高還是降低了新手門檻，還真不好說。

針對這個改變，一名設計師給出了當前最适合 Midjourney 的新提示技巧：核心就是一個清晰不炫技，結構化表達。

在模型知識方面 v6 的進化有一個小細節非常有代表性。下面例子裡的提示詞是日本女性。v6 能分清頗為微妙的不同亞洲族裔之間的相貌區别。比起 v5.2，影像中女子的外形确實更有日本特征。這種歐洲人根本理解不了的亞洲長相差異也被 AI 拿捏了。

（左 v5.2，右 v6）

3）改進的影像提示和混合

在這裡，改進的影像提示其實更多是指按提升生成影像能力的提升，即能夠根據文本提示創建更精細和逼真的影像。而改善的影像混合是指 v6 能使得不同元素和風格的結合更加和諧自然。

從網友的測試來看，v6 的影像生成能力确實有明顯的提升。相較于 v5.2，v6 的影像确實更偏向于豐富和細膩逼真。v5.2 其實從細節度上來講已經可以到 " 亂真 " 的程度了，但 v6 的感覺是 " 真 "，而非 " 仿真 "。提示詞對的話，結果甚至有一種相機直出的真實質感。

比如這兩盤土豆炖牛肉，明顯右側 v6 版本的會更讓人有食欲。

（左：v5.2 右 v6）

環境還原能力上看，差異也非常明顯：v6 版本的羅馬帝國市場，不說你會以為是《羅馬》劇組的場景。而 v5.2 就略顯平面，房子也略有些奇怪。

（上 v6，下 v5.2）

這兩組圖的對比差異就更明顯了。提示詞都是紀錄片風格，上面真的很紀錄，而下面那組細看問題還是很多，缺乏真實的光影和細節深度。

上為 v6，下為 v5.2

人像方面，其實 v5 已經做到相當還原了。但在 v6 中，臉上的小疙瘩，帽檐上的褶皺與污迹，鼻子上緊貼弧線充滿變化的光影讓 v5.2 的照片看起來更像是美顏過的，太平面了。就算同樣是雀斑，v6 的表現也更讓人信服，充滿符合人體呈現的集中性，而非平鋪感。

v5.2

4）文本繪制能力提升

簡單來說，v6 現在可以在影像中更明确地繪制文本，甚至可以規定其風格。為了獲得最佳效果，文本應該用引号标出。這樣做可以幫助模型區分哪些是描述性的提示，哪些是實際要在影像中呈現的文本。例如，如果用戶想要生成一張影像，上面寫着用馬克筆在便利貼上寫的 "Hello World!"，他們可以使用類似于以下的提示："imagine a photo of the text 'Hello World!' written with a marker on a sticky note --ar 16:9 --v 6"

這一點在測試中也非常清晰的展示出來了。現在 v6 對文字的處理正确率大幅提高，而且嵌入感也更好。

然而可惜的是英文之外還是鬼畫符。但 v6 已經能夠完全進行符合畫面的風格化文字創作了。

另一個例子中，可口可樂的字體被完全完美還原。

再來個标志設計圖——文字完美貼合畫面風格。設計師最後的陣地有點守不住了。

Midjourney v6 展現出的強大能力看起來對攝影師和設計團隊形成了更加真實的威脅——目前它展現出的審美，和諧的氛圍能力已經直追高端攝影師。最可怕還不是它展現出的實力，而是它進化的速度——在 Midjourney 的公告中，他們還表示：v6 的速度、影像質量、連貫性、提示遵循和文本準确性在未來幾周内應該會提高。而 v6 beta 在發布半個小時之後宣布了第一次更新，生成速度提升了 2.7 倍。

随着 Midjourney v6 的發布，新一輪影像生成模型的軍備競賽又要開始了。