大酷樂
  • 汽车
  • 理财
  • 军事
  • 科技
  • 游戏
  • 互联网
  • 娱乐
  • 财经
  • 科学
  • 社会
  • 亲子
  • 电影
  • 健康
  • 教育
  1. 首頁
  2. 科学

声网刘斌:“Her”真正落地实现离不开RTE能力的支撑

2024-12-26 简体 HK SG TW

今天小编分享的科学经验:声网刘斌:“Her”真正落地实现离不开RTE能力的支撑,欢迎阅读。

大模型正在改变实时互动技术。

声网作为全球音视频技术龙头,2020 年在纳斯达克上市,目前是全球最大的实时互动云服务商,平台单月音视频使用时长达 700 亿分钟。

同时,声网兄弟公司 Agora 也是 OpenAI Realtime API 的合作伙伴,在国内声网也与 MiniMax 正在打磨国内首个 Realtime API。

在 MEET 2025 智能未来大会大会现场,声网首席运营官刘斌分享了一个看似离大模型有点距离,实则却不可或缺的环节:

RTE(Real Time Engagement)在 AI Agent 时代的全新价值。

为了完整体现刘斌的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025 智能未来大会是由量子位主办的行业峰会,20 余位产业代表与会讨论。线下参会观众 1000+,线上直播观众 320 万 +,获得了主流媒体的广泛关注与报道。

核心观点

多模态对话体验的两个关键:延迟是否低于 1.7 秒,能否打断

多模态对话 AI Agent 应用产品化落地的关键:端到端、全球任意地点、弱网环境、各种终端下的低时延

不管是语音 , 还是视频 , 只要是多模态有互動的 AI Agent 应用 , 离不开 RTE 能力的支持

演讲全文

今天非常高兴有这样机会来到现场跟分享,声网作为 RTE 领網域的企业,和 AI 领網域的大模型与应用厂商,和当下的大模型关系是什么,RTE 演进如何助力 AI Agent 应用落地。

第一,声网到底是谁。

声网于 2020 年在纳斯达克上市,专注于提供实时互动云服务。经过多年的发展,该公司在该行业取得了一定的进步。

我们公司的口号简洁明了,即让实时互动像空气和水一样,无处不在。

这一理念旨在实现未来无论身处何地,都能获得如同面对面般的互动体验。经过多年的努力,我们在市场占有率方面位居第一,并拥有大量注册开发者应用。

单月音视频分钟数约为 700 亿,这意味着每天在我们平台上的分钟数约为 20 多亿。在这种情况下,全球超过 60% 的泛娱乐应用选择声网作为其合作伙伴。我们涉及的领網域包括泛娱乐、教育和物联网等,均拥有相应的合作伙伴。

第二,我们做的事到底和 AI Agent 有什么关系,如何去助力它。

首先,值得关注的是,OpenAI 于 10 月 1 日在官方网站发布 Realtime API 时,曾在合作伙伴中提及 Agora,即我们声网的兄弟公司。

其次,在 10 月份的 RTE 大会上,我们宣布与 MiniMax 正在打磨国内第一个 Realtime APl。

第三,AI Agent 时代到底怎么样做才能做的更好。

我们可以观察到,在真正多模态模型推出或对话时,相较于原先的纯文本互動,已经发生了变化。

原先的互動本质上是异步的,即我可以发送信息,说完后等待处理并返回结果。然而,在真正多模态互動中,要求实时性和双工性,即我说他听,他听完后我再听。

在这个过程中,有几个关键因素会影响效果。

首先,大家较为熟悉的语气、情感、情绪和口音等因素在模型中得到了大量处理。

其次,延迟也是一个非常重要的因素。相信大家都有相关的感受。

从实际测量数据来看,真正达到实用效果的延迟一般在 1.7 秒左右。如果低于这个值,人们会觉得与 Agent 交流很自然;而如果延迟达到 2 秒多或 3 秒,人们就会感觉到有些卡顿,反应稍显迟缓。这是一个非常重要的关键点。

另一个关键点是,能否实现打断功能以及如何更好地进行主动互動。

要实现这些功能,除了模型能力外,还需考虑应用的落地方式。是在实验室的 PC 上进行演示,还是将其应用于各种手机终端、物联网终端以及其他设备上?

当有此需求时,在产品化落地的过程中会发现,除了之前提到的低时延等能力外,还需要在端到端都能实现。此外,还需在不同地点、不同网络环境下以及各种终端设备上都能得到支持,这并非易事。

关于这张图,尽管大家可能不太关注,但我们当时非常重视。这是 5 月份 OpenAI GPT-4o 发布时的情况,大家可以看那根网线,这是要保证网络的稳定性。

在 4o 发布之后,大家都在等待 API 的推出,原本预期一周或两周内会推出,但实际上并非如此,直至 10 月份才发布。原因在于,一开始大家认为这件事很简单,只需对原有的 RTP Server 进行修改,将文本传输改为语音传输即可。

然而,实际情况并非如此简单。我们与他们合作,直至 10 月份才正式推出。正是我们在其中发挥作用,使其真正落地实现。

在此,我向大家展示声网多年来的工作成果。

首先,我们拥有一张遍布全球的 SD-RTN 网络,确保在这张网络上音视频传输都能在标准的 400 毫秒内端到端到达,这是网络支撑。其次,我们多年的积累使我们能够在 30 多个平台的框架和 30000 多终端机型上提供 SDK 支持,涵盖各种作業系統。您只需很快地建立这个能力。包括物联网的各种设备终端,都有相应的 SDK。

此外,在实际应用中,如我们在这个会场,如果我要与 AI 对话,网络情况和环境噪声并非固定不变。如何在极端弱网下保证效果,这也是我们多年技术积累的结果。

正是我们在这一领網域的深厚积累,使得我们能够构建一个具有实际应用价值的 Voice 对话 Agent。只有将这两者紧密结合,才能实现这一目标。这也解释了为什么在发布 Realtime API 时,我们需要寻找这样的合作伙伴共同推进。

我们还发现,现有的 RTC 技术栈和基础设施存在大量改进空间。只有通过改进,大型模型才有可能在各种场景、形态和模型下大规模参与到人类的语言对话中,其参与来源也将从云端扩展到终端,再到更低延迟的边缘。基于这些能力的改进和普及,未来 RTE 必将成为生成式 AI 时代 AI 基础设施(AI Infra)的关键组成部分。

如图右侧红色部分所示,Realtime API 通常由大型模型厂商发布。然而,在左侧这一圈,包括中间的网络和声网的 Linux Server SDK,以及前端的 SDK,如果没有这样的基础,我们将很难实现这一整套效果。这正是我之前所解释的原因。如果中间的这些环节未能实现,那么效果将无法显现。

在此,我们将从当前视角出发,探讨未来的行动方向以及如何进一步提升效果。近期,我们一直在深入研究和投入资源,以优化人与人之间的对话体验。然而,在人与模型之间的对话中,体验的提升需要充分考虑模型的特性。

例如,我们从传统的 QoS、QoE 发展到如今的 AI QoE,乃至多模态 AI QoE,这其中涵盖了 VAD 技术、噪音消除能力以及相关网络优化等方面。这些新的方法和方式使得我们与模型的对话更加贴近实际情况。以一个简单的例子来说明,人与人交谈时不会夹杂其他信息,但人与模型对话时则可能不同,语音传输过程中可能还包含其他信息。因此,在弱网环境和应用场景中如何实现良好适配,便显得尤为重要。

我们曾在 RTE 大会上展示过一个实例,当时的会场规模较大,人数众多且环境嘈杂,我们在现场使用了一个 5G 设备进行演示。

我们想做到的是从 60 分提升到 90 分,这不仅涉及模型难度的提高,还包括周边工程配套的完善,以便将产品从演示阶段发展为更具实用性的应用。

关于声网的产品体系,我们正不断加强其功能,如 Linux SDK、AI VAD 能力以及 AI Agent Service 的补充与优化。通过声网 RTE+AI 能力全景图,我们可以看到我们的整体思路,包括从基础设施到 Agent,再到场景的演进,旨在成为生成式 AI 时代的 AI 基础设施,这也是我们的愿景。

最后,我想强调一点:

任何涉及大模型多模态实时互動的应用,无论是语音还是视频,只要存在多模态互動,这类 Agent 应用的落地都离不开 RTC 技术的支持。

在这种情况下,如果大家有这样的需求,请来找声网,我们一定给大家更好的体验。

谢谢大家,今天就到这里。

—  完  —

点这里关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~  

>
熱門排行
  • 王治郅:杨瀚森主要的问题是速度 他 王治郅:杨瀚森主要的问题是速度 他 郟君昊 | 2025-05-05
  • 贸易战烧进电影院:特朗普拟重税打击 贸易战烧进电影院:特朗普拟重税打击 習又夏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 寸飛蘭 | 2025-05-05
  • 手机电池突破8000mAh?硅碳技术的回 手机电池突破8000mAh?硅碳技术的回 衛青柏 | 2025-05-05
  • 贷款追高炒黄金的人后悔了!有人一天 贷款追高炒黄金的人后悔了!有人一天 繁綺文 | 2025-05-05
  • 任天堂对Genki提起Switch 2商标侵 任天堂对Genki提起Switch 2商标侵 郜萌運 | 2025-05-05
  • 哪吒汽车APP和官网恢复正常 知情人 哪吒汽车APP和官网恢复正常 知情人 袁曼雁 | 2025-05-05
  • 极越汽车 CEO 夏一平名下青岛/义乌 极越汽车 CEO 夏一平名下青岛/义乌 集玲琳 | 2025-05-05
  • 全国经济第一大省明确,推动组建农商 全国经济第一大省明确,推动组建农商 佼昌翰 | 2025-05-05
  • 桑保利:亚马尔有配合意识&有点像梅 桑保利:亚马尔有配合意识&有点像梅 甄正浩 | 2025-05-05
  • 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 高露现身上海虹桥机场 黑色外套点缀亮色爱心装饰俏皮亮眼 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 vivo X90S曝光:处理器更新为天玑9200+ 安卓最强芯 袁曼雁 | 2023-05-05
  • “懒癌”发病率上升,定期体检别忽视 “懒癌”发病率上升,定期体检别忽视 幸聽楓 | 2023-05-02
  • 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 宋慧乔获百想视后 韩素希发图手动加爱心表情庆祝 賁芳蕤 | 2023-05-02
  • 曹操墓,里面都有啥? 曹操墓,里面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他们终于要HE! 十年了,他们终于要HE! 惠惠君 | 2023-05-07
  • 中央部署经济工作,释放5大信号 中央部署经济工作,释放5大信号 郜萌運 | 2023-05-02
  • 高德上线手机弯道会车预警功能 高德上线手机弯道会车预警功能 習又夏 | 2023-05-02
  • 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 陈自瑶抱病为爱女做蛋糕庆生,王浩信点赞没露面 賁芳蕤 | 2023-05-02
  • 等比例长大的童星,李兰迪算一个 等比例长大的童星,李兰迪算一个 郟君昊 | 2023-05-02
  • 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 这些被抓来做实验的流浪狗,最终拯救了无数糖尿病人 集玲琳 | 2023-05-02
  • 高端国产车:军车血统,目前电动车越野的“天花板”? 高端国产车:军车血统,目前电动车越野的“天花板”? 謝飛揚 | 2023-05-02
  • 《云襄传》终于抬上来啦,男O女A让人好上头! 《云襄传》终于抬上来啦,男O女A让人好上头! 集玲琳 | 2023-05-02
  • 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 21家A股游戏公司2022年收入651亿 今年“游戏+AI”能否逆风翻盘? 衛青柏 | 2023-05-04
  • 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 信用风险释放趋缓,结构性风险需重点关注 ——2023年一季度债市信用风险回顾与下阶段展望 袁曼雁 | 2023-05-02
  • 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 与周立波夫妇闹纠纷成老赖,唐爽被司法拘留15日 寸飛蘭 | 2023-05-05
  • 普京签署总统令,批准对俄刑法典相关法条的修正案 普京签署总统令,批准对俄刑法典相关法条的修正案 集玲琳 | 2023-05-02
  • 解除资格!停止一切合作 解除资格!停止一切合作 佼昌翰 | 2023-05-02
  • 中银证券给予南京银行增持评级 中银证券给予南京银行增持评级 袁曼雁 | 2023-05-03
  • 3699起 联想小新mini主机上架 13代酷睿标压处理器 3699起 联想小新mini主机上架 13代酷睿标压处理器 習又夏 | 2023-05-05
  • 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 前董事长被免,天山生物全面进入“中植系”时代?股价曾在一月内暴涨超400% 惠惠君 | 2023-05-02
  • 疯成这样,怎么还能被全网吹捧? 疯成这样,怎么还能被全网吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 狂吼11次“让一下”!交警咆哮开道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收购美国第一共和银行 摩根大通收购美国第一共和银行 謝飛揚 | 2023-05-02
  • 台剧赢麻了,又来一部8.9 台剧赢麻了,又来一部8.9 衛青柏 | 2023-05-02
  • 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 事关农村土地承包和农民权益,《农村土地承包合同管理办法》5月1日起施行 郟君昊 | 2023-05-02
  • 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 下降45分,上涨35分!34所自划线院校复试分数线涨幅汇总 袁曼雁 | 2023-05-07
  • "三高"已盯上青少年,做好这件事是关键 "三高"已盯上青少年,做好这件事是关键 習又夏 | 2023-05-05
  • 五一档没一个能打的 五一档没一个能打的 集玲琳 | 2023-05-05
  • 恐怖韩剧下神坛,这次胆小可入 恐怖韩剧下神坛,这次胆小可入 袁曼雁 | 2023-05-05
  • 这剧是不是用ChatGPT写的呀? 这剧是不是用ChatGPT写的呀? 惠惠君 | 2023-05-02
  • 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 200户连夜疏散,原因让人愤怒!“损失超一亿”,官方通报 袁曼雁 | 2023-05-03
  • 性骚扰惯犯,滚出娱乐圈 性骚扰惯犯,滚出娱乐圈 謝飛揚 | 2023-05-05
  • 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 48岁何炅自曝已老花眼,黄磊睡前认老,《向往的生活》证实将停办 佼昌翰 | 2023-05-02
  • 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 一个《长月烬明》倒了,《狐妖》《长相思》《与凤行》…在路上了 惠惠君 | 2023-05-02
  • 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 张天爱假期晒“酷”存照 卷发披肩穿黑色吊带裙大秀好身材 嬴覓晴 | 2023-05-02
  • 当年轻人开始不随份子钱 当年轻人开始不随份子钱 袁曼雁 | 2023-05-02
  • 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 毕滢用8年时间成功逼宫?曾被传已婚生子的她,不容小觑 幸聽楓 | 2023-05-03
  • 宋慧乔获视后首次晒照,拿奖杯笑容温柔 宋慧乔获视后首次晒照,拿奖杯笑容温柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們