大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 互联网

免费GPT-4o来袭,音频视觉文本实现「大一统」

2024-05-15 简体 HK SG TW

今天小编分享的互联网经验:免费GPT-4o来袭,音频视觉文本实现「大一统」,欢迎阅读。

作者 | 赖文昕

今天凌晨,即北京时间 5 月 14 日 1 点整,OpenAI 召开了首场春季发布会,CTO Mira Murati 在台上和团队用短短不到 30 分钟的时间,揭开了最新旗舰模型 GPT-4o 的神秘面纱,以及基于 GPT-4o 的 ChatGPT,均为免费使用。

此前,有传言称 OpenAI 将推出 AI 搜索引擎,旨在与谷歌明天举办的 I/O 开发者大会一较高下,一度引发了公众的热烈讨论。

不过 Sam Altman 随后在 X(原推特)上表示,要展示的并非 GPT-5 或搜索引擎,而是一些令人期待的创新成果,他本人对此充满期待,认为其像魔法一样神奇。

那么,GPT-4o 是否真的如 Sam Altman 所说,是 OpenAI 带来的「新魔法」呢?

多模态实时语音助手,更快更全更有情感

登台后,Mira Murati 宣布了 ChatGPT 的桌面版本和新 UI,紧接着就介绍了本场发布会的主角—— GPT-4o 。

在发布会上,Mira Murati 与团队成员 Mark Chen、Barret Zoph 一起,重点展示了基于 GPT-4o 的 ChatGPT 在不同任务中的实际表现,尤其展现了其语音能力。

若用关键词加以总结,搭载 GPT-4o 的 ChatGPT 可谓是又快、又全、又有情感。

与 ChatGPT 对话时,用户不必等 ChatGPT 说完,可以随时插话;模型能够实时响应,不存在尴尬的几秒延迟。

在 Mark 表示自己很紧张且捕捉到他急促的呼吸后,ChatGPT 还会提醒需要冷静情绪,识别其呼吸节奏并引导他做深呼吸。

模型能够以各种不同的风格生成声音。无论对话时让 ChatGPT 用唱歌的方式、机器人机械音还是戏剧化的语气讲故事,它都能迅速反应并输出。

基于 GPT-4o 强大的视觉能力,用户还可以语音让 ChatGPT 分析页面上的数据图表。

更强大的是,打开摄像头后写下一道数学题,ChatGPT 还会一步步引导该如何解下一步,其讲解的清晰度与耐心堪比幼教。

ChatGPT 的「同传能力」也不容小觑,OpenAI 团队还在现场展示了一波英语和意大利语的实时互译,中间实现零延迟。

更有意思的是,ChatGPT 在对话中还会使用语气词,甚至是向 OpenAI 团队开玩笑和表达感谢。在「看到」他们写下「我爱 ChatGPT」的文字后,ChatGPT 甚至会在发出撒娇的声音后,再表扬其贴心。

ChatGPT 甚至还能和用户「视频聊天」。在演示中,Barret 让 ChatGPT 猜测自己的情绪,在他开始露出笑脸后,ChatGPT 直接语音回复「你看起来很开心,笑容灿烂,还有点激动。」

英伟达首席 AI 科学家 Jim Fan 曾讲述过当前实时语音助手(如 Siri )的困境,即很难创造出沉浸式的使用体验。

用户在和 AI 语音助手对话时要经历三个阶段:语音识别(ASR),将音频转换为文本,例如 Whisper;大语言模型(LLM)规划接下来的话语,将第一阶段的文本转换为新的文本; 语音合成(TTS),将新文本转换回音频,如 ElevenLabs 或 VALL-E 。

如果简单地按顺序执行,就会产生巨大的延迟,特别是当每一步都需要等待几秒时,用户体验就会急剧下降,哪怕合成的音频听起来非常真实,也会让用户格外「出戏」,就更别提沉浸式的使用体验了。

以往的 ChatGPT 语音模式也是如此,依赖三个独立模型工作,平均延迟时间为 2.8 秒 ( GPT-3.5 ) 和 5.4 秒 ( GPT-4 ) ,语音助手也总会出现信息丢失,既不能判断语调、多个说话者或背景噪音,也不能输出笑声、唱歌或表达情感。

而现在,GPT-4o 的音频输入响应时间最短为 232 毫秒,平均响应时间为 320 毫秒,与人类在对话中的反应时间极为相似。

作为一个全新的单一模型,GPT-4o 能端到端地跨文本、视觉和音频,所有输入和输出都由同一个神经网络处理,直接一步到位,在用户输入后(文本、语音、影像、视频均可)直接生成音频回答。

GPT-4o ,一款免费的全能 GPT-4

Mira Murati 在发布会上表示,GPT-4o 最棒的地方在于,它将 GPT-4 的智能提供给每个人,包括免费用户,将在未来几周内迭代式地在公司产品中推出。

GPT-4o 中的字母 o 指 omni,在拉丁语词根中是「全」的意思,是涵盖了文字、语音、图片、视频的多模态模型,接受任何模态的组合作为输入,并能生成任何模态的组合输出。

据 OpenAI 官网,GPT-4o 不仅在文本和代码处理的性能上与 GPT-4 Turbo 持平,而且在 API 调用上速度更快,价格更是降低了 50%。

文本能力测试

与 GPT-4 对比多语言考试能力

更重要的是,GPT-4o 的视觉理解能力在相关基准上取得了压倒性的胜利。

在音频方面,GPT-4o 的语音识别(ASR)也比 OpenAI 的语音识别模型 Whisper 性能更佳(越低越好)。

与 Meta、谷歌的语音转写模型相比,GPT-4o 同样领先(越高越好)。

若落实到实际生活的使用中,GPT-4o 究竟能给普罗大众带来什么变化呢?

OpenAI 的官网展示了 GPT-4o 在海报创作、三维重建、字体设计、会议总结等等一系列充满可能性的应用。

比如,在输入人物图片、海报元素以及想要的风格后,GPT-4o 就能给用户生成一张电影海报。

或者,根据输入的诗歌文本,GPT-4o 能生成用手写体写着诗歌、画着画的单行本图片。

在输入 6 张 OpenAI 的 logo 图后,GPT-4o 能三维重建出其立体动图。

甚至还可以让 GPT-4o 帮忙把 logo 印在杯垫上。

「今天,有 1 亿人使用 ChatGPT 来创作、工作、学习,以前这些高级工具只对付费用户可用,但现在,有了 GPT-4o 的效率,我们可以将这些工具带给每个人。」Mira Murati 如是说道。

写在后面

发布会之外,OpenAI 研究员 William Fedus 透露,此前在大模型竞技场参与 A/B 测试并碾压全场的模型「im-also-a-good-gpt2-chatbot」,就是本次登场的 GPT-4o 。

截至 2024 年 3 月,OpenAI 在不到十年的运营时间内,已经完成了 10 轮的融资,累计筹集资金超过了 140 亿美元,其估值在 2 月的融资交易中已经飙升至 800 亿美元。

伴随着狂飙的市值,OpenAI 的技术版图已经横跨了多个 AI 的关键领網域,形成了一个全面而深入的产品矩阵。

API 产品线提供了包括 GPT 模型、DALL · E 模型、Whisper 语音识别模型在内的多样化服务,并通过对话、量化、分析、微调等高级功能,为开发者提供技术支持;ChatGPT 为核心的产品线分别推出了个人版和企业版。

在音乐生成领網域,OpenAI 也有一定的技术积累,比如经过训练的深度神经网络 MuseNet,可预测并生成 MIDI 音乐檔案中的后续音符,以及能生成带人声音乐的开源算法 Jukebox。

再加上年初春节假期期间毫无征兆推出的 AI 视频生成大模型 Sora,更是让网友们感叹「现实,不存在了。」

毋庸置疑,OpenAI 是大模型这场擂台赛中当之无愧的擂主,其技术与产品的迭代更是整个行业的风向标,不少大模型创业者都遇过「OpenAI 不做,没人投;OpenAI 一做,人人投」的融资奇观。

但随着 Claude 3 和 Llama 3 的紧追与 GPT Store 上线 2 个月惨遭「滑铁卢」,不少 AI 行业从业者开始对 OpenAI 祛魅,认为「大模型护城河很浅,一年就赶上了。」

现在看来,OpenAI 果然还是 OpenAI。

本文雷峰网作者 anna042023 将持续关注 AI 大模型领網域的人事、企业、商业应用以及行业发展趋势,欢迎添加雷峰网作者交流,互通有无。

熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們