GPT-4o的“类人”响应速度刺痛Siri？

今天小编分享的科技经验：GPT-4o的“类人”响应速度刺痛Siri？，欢迎阅读。

经济观察网记者钱玉娟陈奇杰 北京时间 5 月 14 日凌晨，美国人工智能研究公司 OpenAI 召开春季发布会，发布全新旗舰模型 GPT-4o。该发布会仅在线上进行了不到 30 分钟，却引起了 AI 界的广泛关注。

GPT-4o 的 "o" 代表 "omni（全能）"。OpenAI 称，与现有模型相比，GPT-4o 在视觉和音频理解方面尤其出色，这款模型接受文本、音频和影像的任意组合输入，并生成文本、音频和影像的任意组合输出。在英语文本和代码上，GPT-4o 的性能和 GPT-4 Turbo 模型的性能相匹配，在非英语文本上，GPT-4o 的性能有显著提高。

GPT-4o 的 " 类人 " 互動能力尤其受到关注。在发布会现场，OpenAI 的工程师对 GPT-4o 说 " 我第一次来直播的发布会，有点紧张 "，GPT-4o 回应他 " 要不你深呼吸一下 "。在工程师略作夸张的大力深呼吸后，GPT-4o 很快说道 " 你这不行，喘得也太大了 "。

金山云 AI 业务负责人于游在 GPT-4o 发布后也进行了相关测试。他称，GPT-4o"TTS（从文本到语音）效果优化明显 "。在他看来，OpenAI 真正意义上实现着 VPA（虚拟个人助理）的落地。

于游指出，近几年无论是学界还是技术界，" 类人 " 应用在 AGI（通用人工智能）领網域高速发展，但把多模态、类人语音这些东西完全对齐，放在一个模型当中，如此顺畅地将效果展现出来，OpenAI 实现了 " 一个非常重大的工程化进步 "。

GPT-4o 的音频响应速度已经达到和人类相似的水平。OpenAI 称，GPT-4o 可以在短至 0.23 秒（平均为 0.32 秒）的时间内响应音频输入，与人类的响应时间相似。而使用语音模式与 GPT-3.5 对话的平均延迟为 2.8 秒，与 GPT-4 对话的平均延迟为 5.4 秒。

在浙江大学计算机系统结构实验室从事大模型相关研究的陈天楚全程观看了 OpenAI 的发布会。陈天楚称，GPT-4o 弱化了编程等专业能力，尤其突出了语音模态能力，" 是首个公开、有实用价值的端到端语音对话模型 "。

GPT-4o 的 " 类人 " 互動能力也让市场关注到 OpenAI 在端侧，以及和苹果公司合作的想象空间。

身在新加坡的 Vibranium Consulting 副总裁陈沛一早打开 ChatGPT 就收到了更新提示，他使用后的感受是 " 这次最大的优化是响应延迟 "。陈沛称，以前使用 ChatGPT 基本上要 1 秒到 2 秒才能生成，如今流畅度进一步增加。

陈沛称，GPT-4o 的效果展示让外界看到 OpenAI 正在推动大模型在手机终端侧的落地，因为 " 语音输入和生成延迟，一直都不是网页端的刚需 "。

这也是近期市场的关注焦点之一。日前，有报道称，苹果公司接近与 OpenAI 达成協定，将在苹果手机下一代作業系統 iOS 18 集成 ChatGPT。苹果还与谷歌就授权 Gemini 聊天机器人进行了谈判。

2024 年苹果全球开发者大会（WWDC 2024）将于 6 月 10 日至 6 月 14 日举行，并计划发布 iOS18。

英伟达科学家 Jim Fan 在社交媒体发文猜测，OpenAI 与苹果 iOS 的集成可能有三个层次：一是苹果放弃语音助手 Siri，OpenAI 为 iOS 提炼出更小型、纯设备上的 GPT-4o，并可选择付费更新以使用云；二是设备将拥有把相机或螢幕传输到模型中的功能，可以对神经音频或视频编解码器进行芯片级支持；三是与 iOS 系统级操作 API（应用程式编程接口）和智能家居 API 集成。

相关方均未就上述消息予以公开回应。但在发布会上，OpenAI 称，苹果电腦用户将迎来一款为 macOS 系统设计的 ChatGPT 桌面应用，用户可以通过快捷键 " 拍摄 " 桌面并向 ChatGPT 提问。

于游称，OpenAI 去年发布 GPT-4 后，其付费的高性能版本就已经展现出模型对图文、语音、视觉等全方位的实时推理等相关能力。现在 OpenAI 通过 GPT-4o 一个大模型将图文、语音、视觉互動进行了集中展示，还为未来应用层打开了想象空间，机器完全可以通过识别语音和表情实现与人的互動。

"VPA 的载体会发生变化。" 于游说，OpenAI 试图撬动一种新的互動逻辑，伴随人机智能互動方式的改变，不论是硬體端还是軟體端，都极有可能产生一个新的载体，去实现 AGI 系统响应人类强人工智能的需求。