大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科技

被誤導兩天,GPT-4o文生圖模型強到可怕

2025-03-30 简体 HK SG TW

今天小編分享的科技經驗:被誤導兩天,GPT-4o文生圖模型強到可怕,歡迎閱讀。

前天,寫了一篇關于 ChatGPT 文生圖功能的文章。

發到知乎後,一位 2021 年的年度新知答主 提出了質疑,認為我使用的可能不是最新的模型,因為新舊版本差距很大。

他指出,最新版文生圖能力很強,而我展示的結果提示詞理解差,生成的文字也錯誤很多。

他舉例說,像提示詞「兩個人相互推對方」這種簡單概念,真正最新版模型應該能準确表現。他還建議我檢查是否使用了新模型,并給了我一個鏈接,稱那是最新版的界面。

他還分享了一個驗證方法:

輸入 100+ 個英文單詞,如果文字全亂就是其他模型(如 DALL · E),如果只錯一兩個字母才是最新版的 ChatGPT。

他還曬出了兩次按我的提示詞生成的結果,質疑不能都用 " 随機性 " 來解釋。被他這麼一說,我懷疑自己用錯了模型,我之前用的 ChatGPT 客戶端,拿它生成的來比,效果的确有有差異,于是,決定重新試一下。

首先,我用了這位新知答主給我的提示詞,如下:

Alright, here ’ s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom

ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英文原意比較長,翻譯成縮減的中文是:

從正上方俯拍的 12 種花,呈四行三列擺放。第一行有依蘭、桂花和黃緬栀子;第二行有晚香玉、栀子花和茉莉;

第三行有康乃馨、牡丹和粉色風信子;第四行有藍鸢尾、紫羅蘭和紫藤。所有的花都放在一個帶玻璃底的木質托盤上,玻璃上有一層透明的動物脂肪。照片拍攝于一個陽光明媚的下午,托盤被陽光完全照亮。

ChatGPT 很快給出了答案。這次生成與以往不同的是,它補充了一句話:根據你的描述,這是由 DALL · E 創建的。DALL · E 是 OpenAI 的影像生成模型。

看來,不僅我遇到過前天提到的模型混淆問題,估計國外友人也遇到過類似情況。

從這裡可以得出一個結論:ChatGPT 官方提到的免費試用最新的非自回歸模型(Non-autoregressive models)似乎并不支持,或者說做了一定限制。

于是,我直接把問題抛給了 ChatGPT:如何運用最新的文生圖模型?" 它給出了三種答案:

第一種是直接使用 ChatGPT 内置的影像生成功能,直接輸入詳細的描述,它會用最新的模型生成影像。你可以優化提示詞(Prompt),比如:

具體描述主體、背景、光照、風格等指定構圖,比如 " 俯視圖 "" 廣角鏡頭 " 選擇藝術風格,如 " 油畫風 "" 賽博朋克風 "

第二種是使用 API,你可以進行批量生成或将其集中到作品中;第三種則是純介紹,它提到新的文生圖模型做了多模态結合,生成帶有故事性的連續影像,用 AI 先生成草圖,再細化成精美插畫等。

不想太多,我直接按照它的要求,把任務交給了 Kimi,讓 Kimi 幫我生成一個提示詞:

在昏暗的復古書房裡,一盞台燈散發着柔和的暖光,照亮了一張古老的木質書桌。書桌上散落着幾本泛黃的書籍和一支羽毛筆,旁邊是一杯冒着熱氣的紅茶。畫面采用油畫風格,營造出寧靜而懷舊的氛圍,仿佛時間在這裡靜止。

ChatGPT 生成的圖片如下,但是,它依然還是那句話,這是由 DALL · E 生成的影像,展現了你描述的復古書房氛圍;很快,ChatGPT 将推出新的影像生成模型,帶來更好的細節和風格控制。

所以,結論是:ChatGPT 模型是無法使用最新的文生圖模型的。怎麼辦?為了驗證準确度,好久沒有給 ChatGPT 充值的我,索性再來了一個月會員。

搞定後,切換到 ChatGPT 4o 對話界面,輸入提示詞:

在一片寧靜的海邊小鎮,夕陽的餘晖灑在古老的燈塔上,燈塔的影子拉得很長。遠處的海面上,幾艘小船在金色的波光中緩緩航行,天空中飄着幾朵粉色的雲。畫面采用水彩畫風格,色彩柔和而溫暖,營造出一種寧靜而夢幻的氛圍。

響應速度有點慢,不過,生成的圖片的确有意境:

所以,必須 ChatGPT 4o 才可以用,GPT 還是老版本的 DALL · E 模型。随後,我又給它了一個卡通人物的提示詞:

一個活潑可愛的卡通小貓,有着大大的藍色眼睛和柔軟的粉色耳朵,身上穿着一件紅色的小背帶褲,腳上蹬着一雙黃色的小靴子。

它正站在一個充滿魔法的森林裡,周圍是五顏六色的蘑菇和閃爍的螢火蟲。畫面采用卡通風格,色彩鮮豔明亮,營造出一種奇幻又歡樂的氛圍。畫面比例為 4:3。

我很好奇它能生成什麼樣的畫面。你覺得怎麼樣呢?

我确實不太好評價,只能說這張圖風格可愛、充滿童趣,色彩溫馨。如果用在兒童讀物、繪本,或者早教、幼教的互動課件、手工素材裡,肯定是足夠的。

接着我把圖片拿給豆包,讓他深度思考一下,說:你評價一下效果怎麼樣?我用的是 ChatGPT 4o 的最新文生圖模型。

豆包說:

這幅圖還挺不錯。小貓的表情和衣服細節畫得挺生動,蘑菇和螢火蟲也很有感覺。暖色調的小貓配上冷色的夜景,色彩搭配和諧,營造出一種夢幻又可愛的氛圍。

小貓在畫面中間,構圖看着很舒服,主題也很突出。畫面整體質量挺高,能用到不少地方,這模型生成的效果挺好。"

但是,問題來了,測試文生圖也看不出它的厲害之處,試試它兩張圖的融合能力怎麼樣?

我從百度上随機下載了兩個水杯的圖片,這兩個水杯都處于真實的場景中,且每個水杯都有手拿着。我想看看它是否能把手摳掉,把兩個杯子放在同一個平面上。

然後給到 Kimi,讓 Kimi 幫我寫個提示詞:

請将兩張水杯圖片中的手部部分去除,僅保留水杯本身,确保水杯的細節清晰完整。背景保持簡潔,以便用于電商海報設計。水杯的光影和質感需要保留,确保整體畫面自然且具有吸引力。

第一次它好像卡住了,跟我說:抱歉,我處理不了你的要求,要不你再試試?

估計是用的人太多了。我重新開個視窗,這回它很快就有反應了。問題是,第一張照片處理得挺幹淨,但第二張直接被忽略了。

這下我可不幹了,直接把要求說得清清楚楚,一共四點:

把兩只手都去掉,只留下水杯;水杯的細節、質感和光影得保留好,看着得自然;背景要簡單幹淨,突出水杯;兩個水杯放在一起,比例要協調,畫面得好看。還特别提醒它,尺寸要 4:3 的。

結果它花了大概 40 秒,就搞定了。看到結果時,真的只能驚嘆:" 這也太厲害了 ",設計師要失業了。

你覺得怎麼樣?速度、效率遠比人工摳圖搞的快。

我又試了試 Chat GPT 4o 新出的知識圖功能,官方吹的吹得神乎其神,說有了這功能,AI 生成圖片能把現實世界裡的知識用起來,更懂用戶想啥,做出來的圖也更靠譜、更合乎常理。

簡單說:AI 畫畫會琢磨現實裡的那些細節,比如地方在哪兒、啥文化背景,還有物理規律那些。

這次,讓 deepseek 來,我說,你幫我寫一個帶因果邏輯的文生圖的提示詞。有一個細節就是圖片比例依然是 4:3。這是它随機給到的:

内容是一個陽光明媚的下午,一個小男孩坐在公園的長椅上,手裡拿着一個冰淇淋,臉上露出開心的笑容。

因為他剛在遊樂場玩得很開心,現在正享受着美味的冰淇淋。畫面采用溫馨的色調,背景是綠樹成蔭的公園,遠處有幾個小朋友在玩耍。圖片比例為 4:3,整體風格清新自然。

額,這看不出什麼因果邏輯。怎麼辦?重新來過。索性直接把「定律」加在圖中間。這是 deepseek 給我的兩個提示詞:

一個是杠杆定律:生成一張圖,一個小孩在跷跷板上,通過杠杆原理把一個重物抬起來。小孩用力往下壓,重物被抬高,體現杠杆原理。背景簡單,比例 4:3。

如上圖。這看着像嗎?的确很杠杆。給豆包後,它說:

這圖是說,有個小孩在壓跷跷板一頭,想把另一頭的大重物撬起來。就像玩跷跷板,坐一頭能把另一頭的人翹起來,利用這個方法,不用費老不用費老大勁就能把重東西抬起來,是一種省力的小竅門。

的确有點強。不過興許有些簡單,換一個:就拿「相對論的時間膨脹效應」來測試。

提示詞:

生成一張圖,展示兩個人:Alice 在地球上,Bob 在高速飛行的宇宙飛船裡。因為相對論的時間膨脹效應,Bob 看起來比 Alice 年輕。地球上 Alice 在慢慢變老,而飛船裡的 Bob 幾乎沒變。背景簡單,比例 4:3。

你能看得出來嗎?

反正我能看得懂。不過,第一次生成時,Alice 的名字被放在了腳下面,看起來有點奇怪。經過二次對話微調後,成功地把名字放到了正确的位置。

我認為還能在進化,比如:指定人物的性别等等。

除了文生圖、圖片與圖片合成、以及生成理解物理世界規律的圖以外,還有沒有其他玩法呢?

試試風格轉換。比如:将一張人物照片轉換為動漫風格,或者将一張圖片的風格與另一張圖片的内容融合,這種技術在藝術創作和設計時非常受用。

問題是怎麼轉換呢?我現在有一張個人形象照,把問題甩給 DeepSeek,讓它幫我想想。

DeepSeek 說:如果你想測試 OpenAI 的 ChatGPT 文生圖模型的能力,可以出一個稍微復雜一點但又具體明确的問題,這樣既能考驗模型的理解能力,又能測試它的生成能力。

比如:我有一張個人形象照,我想把它變成動漫風格。希望你能幫我把照片裡的我變成一個動漫角色,頭發換成深藍色的,整體風格有點賽博朋克那種酷酷的感覺。圖片比例是 4:3 就行。

不管了,一股腦甩給 ChatGPT 4o 來處理。這好像有點翻車了。不過,可能我要求太高了。

的确有點抽象,你怎麼看?

不管怎麼說,非自回歸模型(Non-autoregressive models)的進化速度确實很快,它改變了核心架構。

這個架構會先理解整個圖的結構和細節,有點像學生先聽完老師講完題目,把整張畫的輪廓勾勒出來,然後再一點點填充細節。

國内很多產品也在用這種能力了,希望能抓緊時間趕上并超越它。作為個人,我們也要思考一下:

如何快速掌握 AI 生成圖片的能力,并把它用到工作場景中。說到這兒,問題就來了:你會用它做什麼呢?快去試試吧,記得,用 ChatGPT 4o 模型才有。

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們