大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科技

被误导两天,GPT-4o文生图模型强到可怕

2025-03-30 简体 HK SG TW

今天小编分享的科技经验:被误导两天,GPT-4o文生图模型强到可怕,欢迎阅读。

前天,写了一篇关于 ChatGPT 文生图功能的文章。

发到知乎后,一位 2021 年的年度新知答主 提出了质疑,认为我使用的可能不是最新的模型,因为新旧版本差距很大。

他指出,最新版文生图能力很强,而我展示的结果提示词理解差,生成的文字也错误很多。

他举例说,像提示词「两个人相互推对方」这种简单概念,真正最新版模型应该能准确表现。他还建议我检查是否使用了新模型,并给了我一个链接,称那是最新版的界面。

他还分享了一个验证方法:

输入 100+ 个英文单词,如果文字全乱就是其他模型(如 DALL · E),如果只错一两个字母才是最新版的 ChatGPT。

他还晒出了两次按我的提示词生成的结果,质疑不能都用 " 随机性 " 来解释。被他这么一说,我怀疑自己用错了模型,我之前用的 ChatGPT 客户端,拿它生成的来比,效果的确有有差异,于是,决定重新试一下。

首先,我用了这位新知答主给我的提示词,如下:

Alright, here ’ s a shorter version:12 flowers in a 4x3 grid on a wooden tray with glass bottom and animal fat layer. From top to bottom

ylang-ylang, osmanthus, yellow champaca; tuberose, gardenia, jasmine; carnation, peony, pink hyacinth; blue iris, violet, wisteria. Photo taken on a sunny afternoon

英文原意比较长,翻译成缩减的中文是:

从正上方俯拍的 12 种花,呈四行三列摆放。第一行有依兰、桂花和黄缅栀子;第二行有晚香玉、栀子花和茉莉;

第三行有康乃馨、牡丹和粉色风信子;第四行有蓝鸢尾、紫罗兰和紫藤。所有的花都放在一个带玻璃底的木质托盘上,玻璃上有一层透明的动物脂肪。照片拍摄于一个阳光明媚的下午,托盘被阳光完全照亮。

ChatGPT 很快给出了答案。这次生成与以往不同的是,它补充了一句话:根据你的描述,这是由 DALL · E 创建的。DALL · E 是 OpenAI 的影像生成模型。

看来,不仅我遇到过前天提到的模型混淆问题,估计国外友人也遇到过类似情况。

从这里可以得出一个结论:ChatGPT 官方提到的免费试用最新的非自回归模型(Non-autoregressive models)似乎并不支持,或者说做了一定限制。

于是,我直接把问题抛给了 ChatGPT:如何运用最新的文生图模型?" 它给出了三种答案:

第一种是直接使用 ChatGPT 内置的影像生成功能,直接输入详细的描述,它会用最新的模型生成影像。你可以优化提示词(Prompt),比如:

具体描述主体、背景、光照、风格等指定构图,比如 " 俯视图 "" 广角镜头 " 选择艺术风格,如 " 油画风 "" 赛博朋克风 "

第二种是使用 API,你可以进行批量生成或将其集中到作品中;第三种则是纯介绍,它提到新的文生图模型做了多模态结合,生成带有故事性的连续影像,用 AI 先生成草图,再细化成精美插画等。

不想太多,我直接按照它的要求,把任务交给了 Kimi,让 Kimi 帮我生成一个提示词:

在昏暗的复古书房里,一盏台灯散发着柔和的暖光,照亮了一张古老的木质书桌。书桌上散落着几本泛黄的书籍和一支羽毛笔,旁边是一杯冒着热气的红茶。画面采用油画风格,营造出宁静而怀旧的氛围,仿佛时间在这里静止。

ChatGPT 生成的图片如下,但是,它依然还是那句话,这是由 DALL · E 生成的影像,展现了你描述的复古书房氛围;很快,ChatGPT 将推出新的影像生成模型,带来更好的细节和风格控制。

所以,结论是:ChatGPT 模型是无法使用最新的文生图模型的。怎么办?为了验证准确度,好久没有给 ChatGPT 充值的我,索性再来了一个月会员。

搞定后,切换到 ChatGPT 4o 对话界面,输入提示词:

在一片宁静的海边小镇,夕阳的余晖洒在古老的灯塔上,灯塔的影子拉得很长。远处的海面上,几艘小船在金色的波光中缓缓航行,天空中飘着几朵粉色的云。画面采用水彩画风格,色彩柔和而温暖,营造出一种宁静而梦幻的氛围。

响应速度有点慢,不过,生成的图片的确有意境:

所以,必须 ChatGPT 4o 才可以用,GPT 还是老版本的 DALL · E 模型。随后,我又给它了一个卡通人物的提示词:

一个活泼可爱的卡通小猫,有着大大的蓝色眼睛和柔软的粉色耳朵,身上穿着一件红色的小背带裤,脚上蹬着一双黄色的小靴子。

它正站在一个充满魔法的森林里,周围是五颜六色的蘑菇和闪烁的萤火虫。画面采用卡通风格,色彩鲜艳明亮,营造出一种奇幻又欢乐的氛围。画面比例为 4:3。

我很好奇它能生成什么样的画面。你觉得怎么样呢?

我确实不太好评价,只能说这张图风格可爱、充满童趣,色彩温馨。如果用在儿童读物、绘本,或者早教、幼教的互动课件、手工素材里,肯定是足够的。

接着我把图片拿给豆包,让他深度思考一下,说:你评价一下效果怎么样?我用的是 ChatGPT 4o 的最新文生图模型。

豆包说:

这幅图还挺不错。小猫的表情和衣服细节画得挺生动,蘑菇和萤火虫也很有感觉。暖色调的小猫配上冷色的夜景,色彩搭配和谐,营造出一种梦幻又可爱的氛围。

小猫在画面中间,构图看着很舒服,主题也很突出。画面整体质量挺高,能用到不少地方,这模型生成的效果挺好。"

但是,问题来了,测试文生图也看不出它的厉害之处,试试它两张图的融合能力怎么样?

我从百度上随机下载了两个水杯的图片,这两个水杯都处于真实的场景中,且每个水杯都有手拿着。我想看看它是否能把手抠掉,把两个杯子放在同一个平面上。

然后给到 Kimi,让 Kimi 帮我写个提示词:

请将两张水杯图片中的手部部分去除,仅保留水杯本身,确保水杯的细节清晰完整。背景保持简洁,以便用于电商海报设计。水杯的光影和质感需要保留,确保整体画面自然且具有吸引力。

第一次它好像卡住了,跟我说:抱歉,我处理不了你的要求,要不你再试试?

估计是用的人太多了。我重新开个視窗,这回它很快就有反应了。问题是,第一张照片处理得挺干净,但第二张直接被忽略了。

这下我可不干了,直接把要求说得清清楚楚,一共四点:

把两只手都去掉,只留下水杯;水杯的细节、质感和光影得保留好,看着得自然;背景要简单干净,突出水杯;两个水杯放在一起,比例要协调,画面得好看。还特别提醒它,尺寸要 4:3 的。

结果它花了大概 40 秒,就搞定了。看到结果时,真的只能惊叹:" 这也太厉害了 ",设计师要失業了。

你觉得怎么样?速度、效率远比人工抠图搞的快。

我又试了试 Chat GPT 4o 新出的知识图功能,官方吹的吹得神乎其神,说有了这功能,AI 生成图片能把现实世界里的知识用起来,更懂用户想啥,做出来的图也更靠谱、更合乎常理。

简单说:AI 画画会琢磨现实里的那些细节,比如地方在哪儿、啥文化背景,还有物理规律那些。

这次,让 deepseek 来,我说,你帮我写一个带因果逻辑的文生图的提示词。有一个细节就是图片比例依然是 4:3。这是它随机给到的:

内容是一个阳光明媚的下午,一个小男孩坐在公园的长椅上,手里拿着一个冰淇淋,脸上露出开心的笑容。

因为他刚在游乐场玩得很开心,现在正享受着美味的冰淇淋。画面采用温馨的色调,背景是绿树成荫的公园,远处有几个小朋友在玩耍。图片比例为 4:3,整体风格清新自然。

额,这看不出什么因果逻辑。怎么办?重新来过。索性直接把「定律」加在图中间。这是 deepseek 给我的两个提示词:

一个是杠杆定律:生成一张图,一个小孩在跷跷板上,通过杠杆原理把一个重物抬起来。小孩用力往下压,重物被抬高,体现杠杆原理。背景简单,比例 4:3。

如上图。这看着像吗?的确很杠杆。给豆包后,它说:

这图是说,有个小孩在压跷跷板一头,想把另一头的大重物撬起来。就像玩跷跷板,坐一头能把另一头的人翘起来,利用这个方法,不用费老不用费老大劲就能把重东西抬起来,是一种省力的小窍门。

的确有点强。不过兴许有些简单,换一个:就拿「相对论的时间膨胀效应」来测试。

提示词:

生成一张图,展示两个人:Alice 在地球上,Bob 在高速飞行的宇宙飞船里。因为相对论的时间膨胀效应,Bob 看起来比 Alice 年轻。地球上 Alice 在慢慢变老,而飞船里的 Bob 几乎没变。背景简单,比例 4:3。

你能看得出来吗?

反正我能看得懂。不过,第一次生成时,Alice 的名字被放在了脚下面,看起来有点奇怪。经过二次对话微调后,成功地把名字放到了正确的位置。

我认为还能在进化,比如:指定人物的性别等等。

除了文生图、图片与图片合成、以及生成理解物理世界规律的图以外,还有没有其他玩法呢?

试试风格转换。比如:将一张人物照片转换为动漫风格,或者将一张图片的风格与另一张图片的内容融合,这种技术在艺术创作和设计时非常受用。

问题是怎么转换呢?我现在有一张个人形象照,把问题甩给 DeepSeek,让它帮我想想。

DeepSeek 说:如果你想测试 OpenAI 的 ChatGPT 文生图模型的能力,可以出一个稍微复杂一点但又具体明确的问题,这样既能考验模型的理解能力,又能测试它的生成能力。

比如:我有一张个人形象照,我想把它变成动漫风格。希望你能帮我把照片里的我变成一个动漫角色,头发换成深蓝色的,整体风格有点赛博朋克那种酷酷的感觉。图片比例是 4:3 就行。

不管了,一股腦甩给 ChatGPT 4o 来处理。这好像有点翻车了。不过,可能我要求太高了。

的确有点抽象,你怎么看?

不管怎么说,非自回归模型(Non-autoregressive models)的进化速度确实很快,它改变了核心架构。

这个架构会先理解整个图的结构和细节,有点像学生先听完老师讲完题目,把整张画的轮廓勾勒出来,然后再一点点填充细节。

国内很多产品也在用这种能力了,希望能抓紧时间赶上并超越它。作为个人,我们也要思考一下:

如何快速掌握 AI 生成图片的能力,并把它用到工作场景中。说到这儿,问题就来了:你会用它做什么呢?快去试试吧,记得,用 ChatGPT 4o 模型才有。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他的速度跟不上现代篮球的节奏 王治郅:杨瀚森主要的问题是速度 他的速度跟 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击外国电影 逼好莱坞等回美拍片 贸易战烧进电影院:特朗普拟重税打击外国电影 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回旋镖:「折寿」换容量 手机电池突破8000mAh?硅碳技术的回旋镖:「折 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天亏掉6年工资,卖掉舍不得,不卖扛不住 贷款追高炒黄金的人后悔了!有人一天亏掉6年 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵权诉讼,后者回应称将严肃对待 任天堂对Genki提起Switch 2商标侵权诉讼,后 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人士:之前断网因流量欠费 哪吒汽车APP和官网恢复正常 知情人士:之前断 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌两家公司被列入经营异常 极越汽车 CEO 夏一平名下青岛/义乌两家公司 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商联合银行 全国经济第一大省明确,推动组建农商联合银行 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩更专注进球&更像C罗 桑保利:亚马尔有配合意识&有点像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花 謝飛揚 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 — 袁曼雁 | 2023-05-02
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修 集玲琳 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”, 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們