声网CEO赵斌：大模型API成本已下降超90%，实时互动未来将成生成式AI关键方向

今天小编分享的互联网经验：声网CEO赵斌：大模型API成本已下降超90%，实时互动未来将成生成式AI关键方向，欢迎阅读。

声网创始人兼 CEO 赵斌

随着 OpenAI GPT-4o 等多款实时语音对话类模型的推出，RTE（实时互动）技术再次迎来新的发展时期。

钛媒体 App 10 月 28 日消息，近期举行的 RTE 2024 实时互联网大会上，声网创始人兼 CEO 赵斌（Tony Zhao）在演讲中表示，美国 OpenAI 近期将自身 API 调用成本和价格下降 90% 以上，中国市场也是价格战硝烟四起，而且各种算法和模型创新风起云涌、你追我赶。所以，生成式 AI 将提供无限的想象空间和广阔的可能性，包括和 RTE 和实时互动能力的结合，拥有巨大技术潜力。

" 未来 10 年 -20 年，无论是 PC，还是智能手机，都必然以如何更好支持大模型能力在端侧上应用以及推理能力提高和成熟为主要进化轴线。" 赵斌强调，生成式 AI 正在驱动 IT 行业发生大变革，这一趋势主要体现终端、軟體、云和人机界面四个方向上，而声网将与大模型独角兽 MiniMax 打造中国第一个 Realtime API。

（详见钛媒体 App 前文：《独家｜大模型独角兽 MiniMax 将于 11 月发布首款对标 GPT-4o 的端到端实时语音对话 API 产品》）

据悉，声网成立于 2014 年，是全球实时互动云服务商，面向社交直播、教育、游戏电竞、IoT、AR/VR、金融、保险、医疗、企业协作等多个领網域提供 PaaS（平台即服务）、实时互动云等技术服务。

2020 年 6 月底，声网母公司 Agora, Inc.（NASDAQ:API）在纳斯达克上市。

2023 财年第一季度业绩报告上，赵斌宣布，为努力精简组织结构，提高运营效率，Agora, Inc. 旗下将以不同的品牌——声网、Agora 运营两个独立公司，美国和国际业务将以 Agora 品牌运营，中国业务将以声网品牌运营。" 我们相信，此次战略重组将使我们能够将资源最佳地集中在每个业务的优先事项上——推动 Agora 业务的增长并更有效地竞争声网业务，同时考虑到每个市场客户独特的经济和产品需求。随着新机遇的出现，这种新的组织结构还将使我们变得更加敏捷。"

今年 8 月，Agora, Inc. 集团发布的最新财报显示，2024 财年第二季度，公司总收入 3420 万美元，同比增长 0.5%。其中，受益于物联网等行业销售增加，声网国内收入 1.319 亿元人民币（1860 万美元），较去年同期增长 0.3%。

截至 2024 年 6 月 30 日，声网活跃客户数量达 3774 家，过去 12 个月内净留存率达 79%。

如今，随着全球经济复苏以及全球科技转向 AI 技术，生成式 AI 赛道迎来广阔前景。

麦肯锡最新报告显示，2023 年，全球生成式 AI 市场规模 670 亿美元，预计到 2027 年、2032 年分别达到 3990 亿美元和 1.3 万亿美元，2023-2032 年 10 年的复合增长率高达 42%。

2024 年 5 月，OpenAI 公司推出可免费使用的全新旗舰 AI 模型 GPT-4o，可实时进行音频、视觉和文本推理，并且在短至 232 毫秒、平均 320 毫秒的时间内响应音频输入，与人类在对话中的反应速度一致。在 API 使用方面，相比 GPT-4-Turbo，GPT-4o 价格降低一半（50%），速度提升两倍（200%）。

OpenAI CEO 奥尔特曼（Sam Altman）表示，新的 GPT-4o 是 OpenAI 有史以来最好的模型，它很智能，速度很快，是原生多模态，并且它可供所有 ChatGPT 用户使用，无论是免费版本还是付费 GPT-4 版。

今年 10 月，实时音视频技术公司、声网的兄弟公司 Agora 作为语音 API 合作者出现在 OpenAI 发布的 Realtime API 公开测试版中，引发关注。在此之前，声网和 Agora 上次引发关注是两年前的实时语音互动 Clubhouse 风靡全球，而 Agora 提供实时互动技术支持，该公司市值一度暴涨到 100 亿美元以上。

年初至今，Agora, Inc. 集团美股上涨了 20% 左右，主要受益于生成式 AI 和海外直播电商热潮。

10 月 25 日，赵斌在演讲中透露，过去的十年，RTE 能力在各种手机应用和軟體中的穿透力从不到 1%，到 2021 年大概 7%，到现在超过 10%，差不多在以每年 1% 的速度持续穿透到各种应用。

目前，声网单月服务超过 700 亿分钟（按频繁人数计时）。

会上，声网正式发布 RTE+AI 能力全景图，其中包括从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，呈现当下 RTE 与 AI 相结合的技术能力与应用方案。

赵斌强调，生成式 AI 正在驱动终端、軟體、云和人机界面四个层面发生变革。在终端上，大模型能力将驱动 PC 和 Phone 往 AI PC 和 AI Phone 的方向进化；在軟體上，所有軟體将通过大模型重新实现，从 Software with AI 发展至 AI Native Software；云层面，所有云都需要具备对大模型训练和推理的能力，AI Native Cloud 将成为主流；人机界面的主流互動方式将从键盘、滑鼠、触屏变成自然语言对话界面（LUI）。

此外，今年 RTE 活动上还讨论了红杉资本合伙人 David Cahn（大卫 · 卡恩）曾提出的 "AI 支出 6000 亿美元难题 "，即 AI 基础设施的巨额投资和实际收入之间差距过大。

对此，Lepton AI 创始人兼首席执行官贾扬清认为，同等尺寸的模型，能力会越来越强，尤其是通过蒸馏、压缩等技术，现在的 Llama 3.2 3B（30 亿参数）模型甚至可以和以前的 Llama 70B 模型能力相近。除了极少数头部公司之外，越来越多的企业会采用 " 开源 + 精调 " 来做下一代模型，因此开源架构的应用会越来越普遍。

贾扬清判断，推理成本一年内会降到现在的 1/10，创业者在构建应用时可以按照做一个应用成本是目前 1/10 来进行成本核算，看能不能做，包括模型、硬體和应用在上量后，也都是可以降低成本的。

Hugging Face 工程师王铁震表示，现在担心 AI 取代人类是比较早的，但是 AI 已经对一些行业产生了不好影响，比如视频以假乱真的影响，包括对青少年心理的影响，而这里创业的机会也是非常多的。

MiniMax 合伙人魏伟强调，随着多模态的出现，生成式 AI 的边界一定会被继续拓展，文本、语音、音乐、视频这些模型可以很好地帮助艺术、影视、音乐等领網域的创作者极大地提高效率，并加速相关产业的变革。

" 过去的十年，实时互动从理念发展成一个行业。实时互动技术不仅助力社交泛娱乐、在线教育、IoT、企业服务等几十个行业、数百个场景实现了跨越式成长，也支撑了诸多互联网风口的进化。我们有理由期待下一个十年更为波澜壮阔和激动人心，开创一个生成式 AI 时代下的 RTE 新篇章。" 赵斌在演讲结尾表示。

（本文首发于钛媒体 App，作者｜林志佳，编辑｜胡润峰）