用ChatGPT新功能修了張圖發朋友圈，結果私信全在問怎麼做到的？ - 大酷樂

今天小編分享的科技經驗：用ChatGPT新功能修了張圖發朋友圈，結果私信全在問怎麼做到的？，歡迎閲讀。

在今天凌晨 OpenAI 發布新一代文生圖功能的時候，大家還不是很清楚它的實力，還以為是跟在 Gemini 後頭，帶來一些遲到的更新。

GPT 不語，只是一昧地讓用户案例震驚全場。

在最新的迭代中，OpenAI 帶來了文生圖功能上，突破性的指令遵循和一致性表現。只需最簡單的文字 prompt，就可以實現高精度的圖片細部微調——一切修改只需要在會話當中進行，無需任何按鈕、筆刷等額外操作。

魔法不用筆刷，只用咒語

和 Gemini 類似，這次 OpenAI 的更新，重點不在于能做多寫實、多復雜的圖片，而在于指令遵循和一致性，并且是在只使用自然語言指令的前提下。

先來看一組比較入門級的食物照片，prompt 也非常簡單：generate an image of coffee and bread。

随後，在原圖的基礎上要求改成冰咖啡、塗果醬。

除了杯柄之外，該加的加，該留的留，指令遵循非常出色。

涉及到人像的圖片，也有穩定的表現。

仔細看的話，還是有一些小地方是在變動的，但最關鍵的人體動作、衣服皺褶、表情，都沒有瑕疵。

在這組圖的時候，碰到了内容風控，報錯稱不符合政策要求。不過，它理解到了原指令的意圖，提出了修改方案。

這最後一張，也是生成效果最好最自然的一張。

畫面内容簡單的任務自然是手拿把掐，那麼復雜一點的呢？

之前在 Gemini 的生圖測試中，我們出過一張城市街頭景象，效果非常驚人，再看一遍：

同樣的 prompt，給 ChatGPT 執行，在畫面效果上稍微差了一點，尤其是到夜晚這張，幾乎已經看不到人群細節了。

當然這個問題比較偏向于是審美不同，在對關鍵元素的識别上是沒問題的，甚至能捕捉到「茑屋書店」這樣小的細節，字體生成也挺穩的。

除了直接用文字生成，還可以上傳圖片進行修改——這裏，最震撼的一集來了。

在上傳了 png 格式的 APPSO 标志之後，第一步簡單的變個 3D 立體。

效果還可以，陰影方向不一致，但符合光線本身即可。接下來再做點調整。

震撼！這兩次調整的 prompt，不過是二十來個字而已。

（甚至默認數碼產品都是 Apple 的，一些沒有説的屬性真是偷偷藏不住呀。）

随後的小角度微調也很準确。

▲ Prompt：調整角度，使紅色 logo 變成正面，其餘保持不動

細節微調是這次更新非常大的亮點，能夠準确将指令與相對應的細部關聯起來，從而完成精确的局部修改。

▲ Prompt：調整角度，鏡頭從右前方拍攝，整體光線變暗，一束強光從右側打亮機器的一部分，旁邊搭配咖啡豆

指令中包含了光效、鏡頭角度、元素增補等關鍵内容，模型能夠準确識别，而且整體性地進行調整。指哪改哪四個字，都已經説倦了。

這次的更新中，最意外的應該是在同一個會話中，生圖和生文迅速切換的能力。

比如在下面這張圖中，最早的指令是生成一個禮物包裝指南。

首先給出來的是一個圖文版——不算是錯，我沒有指明是要做圖文版，還是文字版，指令是很模糊的。

在生成文字版之後，ChatGPT 主動詢問是不是要做圖文版，在收到确認的答復之後，給出了圖文并茂的版本。

這意味着模型的準确反應，不僅體現在理解單一指令上，也體現在領悟用户潛在意圖上，比用户「多想一步」。

實際上，這也是此前 Deep Research 發布時就展現出來的能力。OpenAI 的深度檢索，是少數會主動向用户詢問、明确任務執行細節的模型。

類似的能力，這次遷移到了生圖當中，從使用感受而言，比在 Deep Research 上的更直觀可感。

例如可以用來制作日常的告示説明，圖文一鍋都「端」了。

整體來看，這次最驚人的肯定要屬一致性和指令遵循的同步到位。

按照慣例，每次測評都應該有一些「使用指南」——這次真的沒有發現什麼注意事項，一切只要按照自己的想法，敲擊鍵盤，輸入文字，就行了。沒有什麼「技巧」或者「竅門」。

通過 prompt 生圖及改圖的一致性，是文生圖非常關鍵的問題，它既跟模型能力相關，又和工程能力相關。在指令遵循和一致性有這麼大的進步之前，主要是通過 prompting 來解決的，壓力是在用户這一邊。

所以會有各種各樣的 prompt 模版、攻略，教大家怎麼「跟模型打交道」。但那不是自然語言互動應該有的狀态，模型在面對人的時候，接受的就是用户最直接的指令——讓人先學一通怎麼寫 prompt，着實很勸退。

Gemini 和 OpenAI 近期的更新，讓熱度有所降低的生圖賽道又重新熱鬧了起來。它們也展示出了同一個共同點：一些修圖改圖產品，通過增加按鈕、入口，來增加生圖的可操控性，以此來對抗模型幻覺的日子，已經遠去了。

一致性的問題解決的并不僅僅只是圖片生成的問題，更加是「使用圖片生成功能」過程中的小麻煩。某種意義上，也是一種工程層面的優化。

修改、生成都是可以用模型對文字指令的準确理解來實現——在這個層面上，「模型即產品」仍然成立。