ChatGPT这么会聊天，还要朋友干什么

今天小编分享的科技经验：ChatGPT这么会聊天，还要朋友干什么，欢迎阅读。

OpenAI 又改写了一次历史，在今日凌晨上线了一款能接受文本、音频、影像多模态输入与输出，表达自然流畅、并能读懂情绪起伏的智能助手 GPT-4o。更重要的是，它可被放入桌面和手机端，并完全免费。压力被急剧转移到了谷歌、苹果身上；未来几天，" 科技春晚 " 还将轮番上演。

作者 | 董温淑

编辑 | 李原

运营 | 刘珊

最近一周，科技行业热闹非凡，大型 " 脸对脸 " 开打的 " 科技春晚 "，更将轮番上演。

5 月 14 日凌晨，OpenAI 2024 年春季发布会上线。如今这家巨头的每次动向，都存在再度 " 颠覆 " 一个行业的可能，既让 AI 创业者们翘首以盼，更让大家紧张万分。

虽然这场 OpenAI 的发布会仅持续了 28 分钟，业内也早有剧透——不会有传说中的 ChatGPT 5，也不会直接对标谷歌做 AI 搜索；但发布会的效果，仍然震惊四座。

此次 OpenAI 推出的是一款桌面版 ChatGPT，该模型被称为 GPT-4o。其中 "o" 代表着 "omni"（全能）。在演示中，这一 " 全模态 " 模型不仅能接受文本、音频、影像的任意组合输出，并可跨领網域进行推理与展示——最重要的是，其反应速度最短达到了 232 毫秒，完全可做到与人类在正常对话中同频。

演示中，GPT-4o 像个真实的人类一样，可以被打断，也可做到语态联想。当它被装入手机时，能通过喘气听懂用户的叹息、疲惫，使用体验易用自然、功能强大。

OpenAI 同步宣布了 " 获客 " 大杀器：GPT-4o 可以被安装至桌面和手机端，并向所有人免费开放，API 定价只有 GPT-4 Turbo 的一半，速度达到 GPT-4 Turbo 的 2 倍，付费的 ChatGPT Plus 用户将获得 5 倍调用额度。

压力被急剧转移到谷歌、苹果等巨头身上。北京时间 5 月 15 日凌晨，谷歌也将上线 "I/O 大会 "，据传谷歌将在会上公布大模型最新进展，并将发布类似 GPT-4o，在 Gemini 加持下的、名为 "Pixie" 的个人数字助理。

本月 21 日，微软也将召开 "Build 开发者大会 "，市场猜测其大概率会将 OpenAI 最新能力集成到自家产品线中。

另据外媒报道，苹果在此次发布会前，已与 OpenAI 达成合作。在 6 月的苹果 "WWDC 大会 " 上，ChatGPT 会不会被塞入 iPhone 之中，以取代 " 招人恨 " 的 Siri，也非常值得期待。

28 分钟，干翻所有语音助手

一场大范围预热，将 OpenAI 发布会的悬念提前拉满。

发布会前，OpenAI 创始人、CEO 山姆 · 奥特曼先早早否定了对标谷歌，上线 AI 搜索的传闻。他称，"（新功能）对我来说就像魔法一样 "。OpenAI 语音 AGI 研究领导 Alexis Conneau 更直接将自己的社交媒体主页背景，改成了一张电影《Her》中的剧照——这是一部讲述人与 AI 助手 " 萨曼莎 " 相恋的科幻电影。

外界甚至为奥特曼编排出了一个与 AI 助手相爱的浪漫故事。发布会结束后，山姆也顺水推舟地，在自己的 X 账号上，只发表了一个单词—— "Her"。

▲（图源 / 网络）

不过当看过 OpenAI 的最新产品后，观众们惊呼，《Her》中的剧情真的进入了现实。

发布会上展示的 GPT-4o，仿佛是一个真实的 " 朋友 " 坐在身边。它反应迅速，语调流畅自然，情绪饱满，会跟随着你的情绪兴奋起来，也能根据上下文给出丰富的对话细节，揣摩对话者的情绪。

例如，当 OpenAI 的研发负责人 Mark Chen 上台时，他对着 GPT-4o 说：" 我站在台上有点紧张，该怎么办？"GPT-4o 回答：" 你太棒了，深呼吸一下吧，记得你可是个专家。"Mark Chen 随之大声喘气，问 GPT-4o 接下来还能给些什么建议，对方回答：" 放松点 Mark，呼吸得慢一点，你又不是吸尘器。"

▲（图源 /OpenAI）

接下来，GPT-4o 被要求给大家讲个睡前故事。没讲几秒，它就被 Chen 打断，要求能不能多点情绪和戏剧性。随即，GPT-4o 语调更加起伏和夸张。Chen 又对其要求：能不能再来点情感，最戏剧化的表达可以吗？GPT-4o 显然读懂了 " 戏剧化 " 的含义，随即拿出了戏剧演员一样夸张的语调——有趣的是，当 GPT-4o 又被要求唱歌时，它甚至自己先叹了口气。

在此过程中，GPT-4o 的反应速度也令人深刻。据计算，它对音频输入的响应时间最短为 232 毫秒，平均为 320 毫秒，这与人类在对话中的响应时间相似。

语音聊天外，GPT-4o 还表现出了多模态理解和输出能力。它能够跨声音、文本和视觉进行智能推理，可以就用户给出的截图、照片，或含有文本和影像的檔案展开对话。

此外，GPT-4o 也能生成任何文本、音频和影像的组合。并能在输出中，识别人类的感情，根据感情做出 " 有情绪的反应 "。

为了快速 " 获客 "，这样强大的助手，OpenAI 准备交给用户免费使用，并可在电腦桌面运行。据官方介绍，OpenAI 优化了用户界面，用户只需要关注如何与 ChatGPT 协作。可想而知，这样一位免费的 AI 助手，可以随时陪你聊天、看图表、写日程，它将爆发怎样的巨量使用场景。

打到谷歌、苹果家门口

尽管 OpenAI 此次没有亮出 GPT-5 这样的大招，从业界反馈看，其展现出的技术能力更新足以令人再度感到震惊。

据腾讯科技报道，根据 OpenAI 官网最新博客文章显示，在 GPT-4o 上线之前，使用语音模式与 ChatGPT 对话，平均延迟为 2.8 秒（GPT-3.5）和 5.4 秒（GPT-4）。为实现这一点，ChatGPT 语音模式是由三个独立的模型组成的流水线：一个简单的模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单的模型将该文本再转换回音频。

在这个过程中，GPT-4 会丢失很多信息，它不能直接观察语调、多个说话者或背景噪音，也不能输出笑声、歌唱或表达情感。

而 GPT-4o 之所以能表现出更自然、更贴近人类的情感，源于其是单独训练的新模型。因此，可以端到端地处理文本、视觉和音频，这意味着所有输入和输出都由同一个神经网络处理。

▲（图源 /OpenAI）

这款被 OpenAI 能力强大优化了的桌面 App 与手机端助手，其所打开的想象力，也威胁到了一众巨头的蛋糕。例如，许多人最直接的反应是：它已经达到了全面 " 吊打 "Siri 的水平。

有趣的是：据外媒报道，发布会前一天，苹果与 OpenAI 的合作已秘密达成。虽然合作方式尚不可知，但不少人猜测：OpenAI 的技术将会在苹果新品中集成亮相。

另外多模态人工智能助手的赛道里，最大的玩家本来还站着谷歌。

2023 年 12 月，谷歌发布了 Gemini 模型 1.0 版本，开始便定义其为 " 原生多模态大模型 "，希望打通语言、听力、视觉信息的输入输出能力。2024 年 2 月，Gemini 上新了 1.5 版本。

5 月 15 日，OpenAI 发布会一天后，谷歌 "I/O 大会 " 即将举办，Gemini 的更新发布本是关注重点。但 OpenAI 爆冷发布语音助手，无疑会将关注度从 Gemini 身上夺走不少。

不过这种在发布会前被抢风头的 " 糟心事 "，谷歌已经不是第一次经历。2023 年 12 月，谷歌原定上线 Gemini 时，OpenAI 便在 11 月抢先举办了首届开发者大会。为此，Gemini 的上线时间一度被传，要被延后到 2024 年初。

这一次，面对 OpenAI" 骑脸 " 开打，谷歌也不甘示弱地做出了反击，很快在官方账号里放出了语音助手的 demo 实时演示。

▲（谷歌 I/O 大会语音助手 Demo。图源 / 网络）

谷歌旗下人工智能研究机构 DeepMind 的 CEO 和联合创始人 Demis Hassabis、谷歌 AI 工作室产品负责人及 Gemini API 研究人员 Logan Kilpatrick 纷纷下场表示，自己将在本届 I/O 大会上 " 首秀 "。

两大巨头在实时语音助手战场正面交锋，让看客直呼精彩。但也有人给谷歌先泼了凉水，评价道："Sorry Google but we got it one day earlier（对不起谷歌，但我们一天前已经得到这个了）。"

竞争对手们怎么办？

十年前，" 科技春晚 " 还是苹果发布会的代名词。十年之后，主角已然轮换。

不得不承认，" 百模大战 " 国内外已胶着对战了一年多，但每每在市场中扛起 " 议程設定 " 标杆角色的，仍非 OpenAI 莫属。接下来，围绕 GPT-4o 多模态功能更新的互動体验，也势必将掀起市场中的新一轮攻防大战。

此前，市场在曝光了 OpenAI 可能发布 AI 搜索产品、硬刚谷歌之时，已有各路大 V 下场，激辩 "AI 搜索 " 的未来。GPT-4o 的最新体验，也为还在苦苦追赶的国内 AI 创业市场，平添了许多紧张气氛。

不过，从业界的综合观察来看，国内创企亦不必觉得节奏被 OpenAI 追逐得难以喘息。比如，OpenAI 没有选择上线 GPT-5，本身亦是大模型训练 " 卷 " 至高阶，也逐渐进入到瓶颈期的反映。

作为目前在研的 OpenAI 最新一代大模型，GPT-5 被视为有望对现有模型形成碾压级超越的产品。其性能、售价等因素，也将直接影响市场的发力方向。

而从 2022 年 11 月到 2023 年 3 月，OpenAI 很快完成了从 ChatGPT（基于 GPT-3.5）到 GPT-4 的跨越，但 GPT-5 的发布目前还没有具体时间表。

有关 GPT-5 的亮相时间，市场已经存在多个版本。此前，OpenAI 官网曾预计 GPT-5 将在 2023 年第四季度推出，随后发布时间推迟。如今市场传闻称，GPT-5 有望于年中、今夏发布；亦有媒体援引内部人士消息称，GPT-5 或将于 2024 年 11 月份亮相。

而就在刚刚过去的 4 月，还有许多人在网上晒出了 OpenAI 发出的 " 红队测试邀请 " 邮件截图。在 AI 行业，" 红蓝对抗测试 " 是保证大模型安全性的重要方式，测试人员通过不断地挑战模型，以便提前对漏洞 " 查漏补缺 "。因此，市场猜测虽然 OpenAI 未标明模型版本，但 GPT-5 或许已经接近发布。

也有业内人士猜测，GPT-5 的 " 姗姗来迟 "，或因 OpenAI 研发遇到某种天花板。与此同时，OpenAI 在今年 2 月 16 日发布的重磅文生视频模型 Sora，虽然看起来技惊四座，但 OpenAI 至今仍未开放使用 Sora，更遑论商业落地。