实时音视频领網域拓荒者的十年

今天小编分享的互联网经验：实时音视频领網域拓荒者的十年，欢迎阅读。

2015 年，声网将 WebRTC 大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的 RTC（实时视音频）大会。在大会开始的前夕，现任声网市场 VP、RTC 大会主策人彭小欢失眠了，她非常担心明天会不会有人来。

一晃十年过去了，当年的 RTC 大会早已更新为 RTE（实时互联网）大会， 10 月 25 日 RTE 2024 也如期而至，但早已不用担心是否有人光顾，现场可谓是座无虚席。

图：RTE2024 开幕当天的现场

国内大模型领網域的「大模型六虎」，其中的智谱、MiniMax、零一万物团队都出现在 2024 年 RTE 大会上，在 ChatGPT 发布后的近两年时间里，智谱和 MiniMax 分别在 tob 和 toc 两条路线上越走越深，有许多心得可以分享，通义千问团队也带着国内最大开发者生态的经验在 RTE 大会上加入讨论。

此次 RTE 大会也不乏 AI 大牛创业者的身影，例如全球最受瞩目的 AI 科学家之一，一年前从阿里巴巴离职、躬身入局大模型 Infra 的贾扬清也出现在 RTE 大会的主论坛上，分享了他在 AI Infra 领網域创业 18 个月后的经验心得以及对 RTE+AI 的趋势判断。

除此，谷歌、蚂蚁、面壁智能、生数科技、商汤、旷视、WPS、Soul 等也在大会上分享了团队过去一年里在 ChatGPT 时代的 AI 探索。

今年的 RTE 大会，可谓是大咖云集，AI 内容拉满。

迄今，RTE 大会已经是第十届，十年如一日地每年坚持举办，从未间隔。恰逢 GenAI 爆发，声网深耕的 RTC（实时音视频）技术，让人与 AI 的互動不再局限于文字，也可以通过语音通话进行生动、流畅的低延时互動，这也成为当下国内外大模型厂商新的发力点——多模态。

而今年的 RTE 大会便提供了一个交流平台，凭借在业界的影响力，吸引各行各业专家参与，使得业内一起共同探索 RTE+AI 的未来潜力，这也将给 RTE 和声网带来更多机遇与挑战。

当年，声网 CEO 赵斌期待 " 通过 RTC 这样的大会让开发者使用实时音视频功能像使用水一样简单 "，十年后，实时音视频功能成功在各行各业应用，丝滑地融入大众的工作生活中。在此十年之期，也是声网创办的十周年，RTE 开始与 GenAI 结合。

走到今天，一切都源于 RTE 大会以及背后的声网公司十年前的那份坚持与初心。

拓荒到蓬勃：技术布道者到行业风向标

今天，实时音视频（RTC）互动技术已经成为一项基础设施，在我们的日常生活中无处不在。

视频会议、在线课堂、社交平台直播连线 PK 等众多场景都有实时音视频的支撑，才有了低延迟、低卡顿、高清晰度、沉浸式的互动体验。

十年前，国内实时音视频还是一片荒原，声网看到机会，率先推出 RTC PaaS 服务以此来打开市场。实时音视频技术门槛较高，仅有 WebRTC，开发者依然很难上手实践，而在 RTC PaaS 模式下，开发者只需调用简单的 API 接口就能实现实时音视频互动，极大地降低了开发者的门槛和成本。

彼时恰逢移动互联网全面爆发，整个行业生机勃勃，实时音视频也开始寻找落地的契机。

成立后的第二年，声网创始人赵斌意识到实时音视频将是互联网企业必须的工具和功能，声网作为在这片荒原上第一个挥锄头开荒的人，必须担负起技术布道者的责任。

所以在 2015 年，为了让实时音视频行业拥有一个能进行技术交流、行业趋势探讨的机会，声网将 WebRTC 大会引入中国，筹办了第一届面向国内开发者、业务人员和用户的 RTC 大会，这也是一个为开发者而生的纯行业技术峰会。

第一届 RTC 大会议程安排上仅由一个主会场、一个分论坛，以及一个 workshop 组成，就吸引了 700 多名观众参与。之后，声网与参会者约定——一年一会，万象更新。

在第一届 WebRTC 大会上，W3CWebRTC 标准中 Media Capture 和 Streams Specifications 核心部分的合编者—— "WebRTC 标准之父 "Dan Burnett 出席现场会议，并与伊利诺伊理工学院客座教授 Alan Johnston 一起，为开发者们进行了约 8 个小时的培训课程，对于开发者来说，在当时 RTC 专业知识极度匮乏的年代，犹如久旱逢甘霖。

2015 年的 RTC 大会打破了 RTC 技术布道在国内「三无」状态：无行业会议、无专业书籍、无专业媒体及社区。而在 RTE 大会迈入第 10 年之际，声网也于今年 8 月正式出版行业首本系统介绍实时互动的技术型科普图书《读懂实时互动》，持续为科普实时互动添砖加瓦。

十年过去了，今天 RTE 大会已经成为业内当之无愧的 " 全球规模最大音视频行业峰会 "，大会规模扩张到 20 多个论坛，观众数上限一度达到六七千人。

据声网官方统计，这些年间，大会累计影响了 200 多万开发者，覆盖 300 多个行业场景，吸引 2000 多名专家讲师参与分享，成绩斐然。这期间，RTE 大会似乎每年都能 " 押题 " 成功，成为行业的风向标。

2015 年，在第一届 RTC 大会上，声网提出 " 直播连麦 " 将成为主流玩法，第二年，连麦互动便成为直播风口。

2016 年，声网认为在线教育将成为新风口，第二年，在线教育迎来爆发式增长。

……

2023 年，大会主题是智能、高清，再一次成功预判了未来趋势，24 年年初多模态爆发，Sora、GPT-4o 引爆舆论，多模态成为各大模型玩家最重要的发力方向。

当 AI 成为科技界的主流，RTE 第十届便是以 "AI 爱 " 为主题，推出了覆盖 AI、出海、Voice AI 等 20+ 行业及技术分论坛。

在此次大会上，声网 CEO 赵斌认为生成式 AI 正在驱动 IT 行业发生大变革，主要体现在四个层面：终端、軟體、云和人机界面，其中 AI Native Cloud 将成为主流。

Lepton AI 创始人兼 CEO 贾扬清也认为继 Web 云、数据云之后，AI 是云的第三次浪潮。在 AI 云的形态下，实时的交流和智能的结合在用户体验环节非常重要，可以说实时将直接与生产力划上等号。

作为此次大会的主论坛演讲嘉宾，贾扬清分别从 AI 应用、云、GPU 算力云技术以及企业大模型自主性等层面带来了他对 AI 基础设施进化的解读。他认为，今天是最容易建设 AI 应用的时代，越是简洁的 AI 模型思路越容易产生优秀的效果。

本次大会持续了两天，大会上的分享嘉宾集结了当下 AI 届的名流，包括「大模型六虎」中的智谱、MiniMax、零一万物，还有谷歌、WPS、Soul 这些在 AI 应用落地探索走在前列的企业。他们结合自身业务，分享了过去两年里在 AI、大模型方向的探索，这将是给与业界的一笔宝贵经验。

本次大会不仅囊括了 RTE+AI 发展的前沿技术分享，还将关注点放在了当下大家最关心的 AI 落地问题上。

大会最精彩的一部分便集中在在圆桌讨论环节，就 AI 的 6000 亿美金难题，Lepton AI 创始人兼 CEO 贾扬清、MiniMax 合伙人魏伟、面壁智能联合创始人＆CTO 曾国洋、Hugging Face 工程师王铁震、Agora 联合创始人 Tony Wang 五位嘉宾一起探讨了从 AI 基础设施到 AI 商业化落地的机会与挑战。

贾扬清认为基于开源架构的应用会越来越普遍；王铁震呼吁大家不仅要关注开源模型本身，还要重视开源模型的基础设施和数据闭环；魏伟则阐释了在产品和用户服务过程中，文本、语音、音乐、视频这些模型可以很好地帮助艺术、影视、音乐等领網域的创作者提高效率，并提出新思路；曾国洋认为未来算力一定会越来越便宜，算力成本优化最终会转化为训练更强大的模型。

在大会上，声网发布了他们的 RTE+AI 能力全景图，在全景图中，声网从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式 AI 解决方案、RTE+AI 应用场景五个维度，清晰呈现了当下 RTE 与 AI 相结合的技术能力与应用方案。

正如 CEO 赵斌所说，生成式 AI 与 RTE 结合带来的场景创新，将成为下一个十年的主题。

新机遇：

实时多模态是通向 AGI 的必由之路

今年 5 月，GPT-4o 一经发布便再次引起业内热议，其展示出的实时语音互動能力让人印象深刻，开创了 AI 实时语音互動的先河。

在发布会上，GPT-4o 展示了大幅降低的语言延迟，平均 320 毫秒的反应时间，让 AI 与人类的对话第一次接近人类真实对话的反应速率。

实时的交流和智能的能力是人机结合的重中之重，正如贾扬清在 RTE 大会上所说，实时可以跟生产力划等号。

但要达到人类可接受范围内的「实时」，端到端实时多模态的崛起只是近来取得技术突破的一条明显，它从思考速度上缩短了语音的互動实践，而另一条暗线则是 RTC（实时音视频，Real-Time Communications）技术的进步。

而 GPT-4o 正是在采用 RTC 方案后，便展现出了自然、流畅的低延时语音互動体验。而且在实际应用中，用户的设备很多时候不能始终联网，所以无论多强大的模型都要依靠 RTC 技术来实现实时对话。

因此，RTC 是将多模态大模型跟实时互动场景连接起来的关键技术桥梁。

声网 CEO 赵斌称，生成式 AI 有一个大的、清晰的方向就是向多模态清晰深度进化，除了提供 GPT-4o 发布会上令人惊艳的情感拟人对话之外，更重要的是打开大模型进一步智能进化的数据需求。

目前文字训练数据基本上已经被充分利用，语言本身是一种声音化的文字，能够提供的信息和数据的空间将会被放大很多倍，并且超过文字，自然环境的声音和视觉数据的获取、运用，将给大模型提供几乎无限的数据空间。因此多模态成为当下的重要发展方向。

在推进多模态清晰深度进化上，声网通过过去和多个行业伙伴打磨、对接、深度实验、测试、评估，发现多模态对话体验存在两个关键侧面：（1）声音体验包括延迟、语气、情感、情绪、口音，这些都是人与大模型进行人机对话时体验的关键角度。（2）人与大模型支持的 agent 对话时的互动体验中，最核心的就是「打断行为」，如果在对话中打断不自然，出现抢话、不知道如何顺利开展下一段讨论等行为，也会对人机互動的效果产生影响。

而这些要通过对现有的 RTE 技术栈等基础设施进行改进，大模型才有机会大规模参与到与人的各种对话，在各种场景、形态、模型下开展直接语音对话。未来 RTE 基础设施将会成为多模态大模型 AI Infra 的关键部分。（注：RTE 在提供 RTC 音视频服务的基础上进一步提供了更加丰富和灵活的实时互动能力，让开发者可以根据不同的场景需求，自由地选择和组合各种实时互动能力，打造出更加个性化和差异化的实时互动体验）。

赵斌认为只有把 RTE 技术运用地足够好，部署到全球各个云和边缘节点，大模型的多模态能力才能普遍地、高质量地走进各种实时互动场景。

而在这场多模态带来的实时对话式 AI 的竞争中，由于 RTE 技术门槛较高，那么接下来，只有拥有核心技术和具备行业解决方案能力的实时音视频厂商才能接住大模型带来的这波新机遇。

在国内市场，声网不仅是头部玩家，还是实时音视频领網域的拓荒者，深深扎根行业已达十年。

10 月初 OpenAI 发布了实时 API 公测版，瞄准了 GPT-4o 语音到语音的 AI 应用和智能体，还公布了三家语音 API 合作者的身份：LiveKit、Twilio，以及 Agora。

其中，Agora 的兄弟公司便是声网，从底层的 RTC 等音视频能力来看，两个兄弟公司都有一致且深厚的技术积累。

相较于市面上大部分 2-3 秒的 AI 互动延迟实践，声网的对话式 AI 解决方案将对话响应延时优化至 500 毫秒，该方案以语音为核心，支持视频扩展，实现文本 / 音频 / 影像 / 视频的组合输入 & 输出，通过丰富的功能构建真实、自然的 AI 语音互動体验。

而声网 RTE 技术在 AI 上的探索，并不是追风口的一时兴起，早在四年前，transformer 在学术界崭露头角不久，声网是业内首家开始把 AI 技术引入 RTE 技术栈的公司，用于改善音视频传输保障。

不仅如此，紧跟兄弟公司 Agora 的步伐，声网跟 MiniMax 正在打磨国内第一个 Realtime API。声网 CEO 赵斌在 RTE2024 上展示了声网基于 MiniMax Realtime API 打造的人工智能体。在演示视频中，人与智能体能轻松流畅地进行实时语音对话，即便人打断提问、进行新的提问，智能体也能像人一样反应灵敏。

可以预见的是，AI 跟 RTE 结合，正给人机互動带来诸多可能，纯文字互动的大模型无法实现 AGI，RTC 加持下的实时多模态将是必由之路。「雷峰网消息」