今天小編分享的科技經驗:用ChatGPT新功能修了張圖發朋友圈,結果私信全在問怎麼做到的?,歡迎閲讀。
在今天凌晨 OpenAI 發布新一代文生圖功能的時候,大家還不是很清楚它的實力,還以為是跟在 Gemini 後頭,帶來一些遲到的更新。
GPT 不語,只是一昧地讓用户案例震驚全場。
在最新的迭代中,OpenAI 帶來了文生圖功能上,突破性的指令遵循和一致性表現。只需最簡單的文字 prompt,就可以實現高精度的圖片細部微調——一切修改只需要在會話當中進行,無需任何按鈕、筆刷等額外操作。
魔法不用筆刷,只用咒語
和 Gemini 類似,這次 OpenAI 的更新,重點不在于能做多寫實、多復雜的圖片,而在于指令遵循和一致性,并且是在只使用自然語言指令的前提下。
先來看一組比較入門級的食物照片,prompt 也非常簡單:generate an image of coffee and bread。
随後,在原圖的基礎上要求改成冰咖啡、塗果醬。
除了杯柄之外,該加的加,該留的留,指令遵循非常出色。
涉及到人像的圖片,也有穩定的表現。
仔細看的話,還是有一些小地方是在變動的,但最關鍵的人體動作、衣服皺褶、表情,都沒有瑕疵。
在這組圖的時候,碰到了内容風控,報錯稱不符合政策要求。不過,它理解到了原指令的意圖,提出了修改方案。
這最後一張,也是生成效果最好最自然的一張。
畫面内容簡單的任務自然是手拿把掐,那麼復雜一點的呢?
之前在 Gemini 的生圖測試中,我們出過一張城市街頭景象,效果非常驚人,再看一遍:
同樣的 prompt,給 ChatGPT 執行,在畫面效果上稍微差了一點,尤其是到夜晚這張,幾乎已經看不到人群細節了。
當然這個問題比較偏向于是審美不同,在對關鍵元素的識别上是沒問題的,甚至能捕捉到「茑屋書店」這樣小的細節,字體生成也挺穩的。
除了直接用文字生成,還可以上傳圖片進行修改——這裏,最震撼的一集來了。
在上傳了 png 格式的 APPSO 标志之後,第一步簡單的變個 3D 立體。
效果還可以,陰影方向不一致,但符合光線本身即可。接下來再做點調整。
震撼!這兩次調整的 prompt,不過是二十來個字而已。
(甚至默認數碼產品都是 Apple 的,一些沒有説的屬性真是偷偷藏不住呀。)
随後的小角度微調也很準确。
▲ Prompt:調整角度,使紅色 logo 變成正面,其餘保持不動
細節微調是這次更新非常大的亮點,能夠準确将指令與相對應的細部關聯起來,從而完成精确的局部修改。
▲ Prompt:調整角度,鏡頭從右前方拍攝,整體光線變暗,一束強光從右側打亮機器的一部分,旁邊搭配咖啡豆
指令中包含了光效、鏡頭角度、元素增補等關鍵内容,模型能夠準确識别,而且整體性地進行調整。指哪改哪四個字,都已經説倦了。
這次的更新中,最意外的應該是在同一個會話中,生圖和生文迅速切換的能力。
比如在下面這張圖中,最早的指令是生成一個禮物包裝指南。
首先給出來的是一個圖文版——不算是錯,我沒有指明是要做圖文版,還是文字版,指令是很模糊的。
在生成文字版之後,ChatGPT 主動詢問是不是要做圖文版,在收到确認的答復之後,給出了圖文并茂的版本。
這意味着模型的準确反應,不僅體現在理解單一指令上,也體現在領悟用户潛在意圖上,比用户「多想一步」。
實際上,這也是此前 Deep Research 發布時就展現出來的能力。OpenAI 的深度檢索,是少數會主動向用户詢問、明确任務執行細節的模型。
類似的能力,這次遷移到了生圖當中,從使用感受而言,比在 Deep Research 上的更直觀可感。
例如可以用來制作日常的告示説明,圖文一鍋都「端」了。
整體來看,這次最驚人的肯定要屬一致性和指令遵循的同步到位。
按照慣例,每次測評都應該有一些「使用指南」——這次真的沒有發現什麼注意事項,一切只要按照自己的想法,敲擊鍵盤,輸入文字,就行了。沒有什麼「技巧」或者「竅門」。
通過 prompt 生圖及改圖的一致性,是文生圖非常關鍵的問題,它既跟模型能力相關,又和工程能力相關。在指令遵循和一致性有這麼大的進步之前,主要是通過 prompting 來解決的,壓力是在用户這一邊。
所以會有各種各樣的 prompt 模版、攻略,教大家怎麼「跟模型打交道」。但那不是自然語言互動應該有的狀态,模型在面對人的時候,接受的就是用户最直接的指令——讓人先學一通怎麼寫 prompt,着實很勸退。
Gemini 和 OpenAI 近期的更新,讓熱度有所降低的生圖賽道又重新熱鬧了起來。它們也展示出了同一個共同點:一些修圖改圖產品,通過增加按鈕、入口,來增加生圖的可操控性,以此來對抗模型幻覺的日子,已經遠去了。
一致性的問題解決的并不僅僅只是圖片生成的問題,更加是「使用圖片生成功能」過程中的小麻煩。某種意義上,也是一種工程層面的優化。
修改、生成都是可以用模型對文字指令的準确理解來實現——在這個層面上,「模型即產品」仍然成立。