当AI遇上语音：重塑未来的互動体验

今天小编分享的互联网经验：当AI遇上语音：重塑未来的互動体验，欢迎阅读。

最近，WebRTC 的早期创建者之一，Fixie.ai 联合创始人兼 CTO Justin Uberti 近日宣布加入 OpenAI，领导实时 AI 项目的开发。他认为语音互動是 AI 的未来，我们正在回归对话式的社会。

JustinUberti 加入 OpenAI 这个决策现在看起来顺理成章。早在今年 5 月，OpenAI 发布第一个端到端 voice-in, voice-out 的大模型 GPT-4o，十年前电影《Her》描述的场景开始照进现实。低延迟、高智能的 AI，凭借信息秒回、不会失联、7 × 24h 情感陪伴、随时提供情绪价值的能力，让 AI 的角色超越了简单的生产工具，开始深入地融入生活的方方面面。

事实上，近两年时间里，AI 从 " 能说话 " 到 " 会说话 "，能力越来越强，有关 AI 的讨论也不再局限于 "AI 助手 "，话题甚至开始频繁出现 "AI 男友 / 女友 "，AI 陪伴成为社交应用的主要发展趋势之一。根据 A16Z 的 8 月份最新报告，Top100 的 app 中，16% 的产品为 AI 陪伴类产品，且占 top20 中的 6 个。

当 AI 陪伴应用广阔的市场空间以及巨大的发展潜力得到市场广泛认可之时，其中一个值得关注的重点是，语音互動成为了当下最为关键的入口。

不管是星野、Character.AI、筑梦岛、Poly.AI 等原生 AI 应用，还是国内头部泛娱乐 app 包括 TT 语音、Soul 等推出 AI 分身、 AI 宠物、AI 伴侣玩法……不同应用的玩法和设计上虽然各有千秋，但核心要素都是以对话为主要互動方式，为用户提供情感体验。

上述现象背后潜藏着一个趋势性变化：随着 AI 陪伴应用市场的不断发展，也将激发用户对更优质的语音互動体验的强烈需求。而在 AI 技术引领的时代变革中，如何紧跟用户日新月异的需求，提升产品体验？

近日，「即构科技」发布的自研音频引擎—— Purio AI 音频引擎，给到市场一个新的解决方案。该方案通过三大核心技术：AI 降噪、AI 回声消除和音量均衡技术，为用户打造纯净、保真、舒适的听觉体验。不仅支撑社交应用用户获得更好的音质体验，还能配合最新的 AI 陪伴方案，让 AI 陪伴更拟真。

「即构科技」发布的自研音频引擎—— Purio AI 音频引擎

当语音成为互動的关键入口

毫无疑问，语音作为人类做自然便捷的沟通方式，是智能时代人机互動的关键入口。

一方面，通过 RTC 技术应用，低延时的快速响应让人与 AI 的互动更接近真实。另一方面，通过语音识别，让机器识别人的情绪、语调成为可能，最终输出更精准、更智能的回答。

从各大 AI 厂商的产品发展趋势亦可看到，语音是不可或缺的一环。比如 GPT-4o 发布以来，端到端实时多模态成为国内外厂商跟进的新方向，其中国外 AI 厂商 Character.AI 推出通话功能、微软 AI 表示年底将拥有实时语音界面，国内豆包 8 月宣布大模型已支持实时语音通话新功能、10 月份 Kimi 发布语音通话功能……

可以预见，语音互動也将成为未来对话式多模态大模型互動的终极形态。

不过，语音互動对用户而言并不陌生，在已经成为生活中的点点滴滴的智能家居、手机、车载、智能穿戴、机器人等领網域，语音互動技术已经实现快速渗透和落地，多数时候，只需张张嘴，机器能代替人类完成一系列任务。

并且，语音互動因其在促进陌生人社交关系以及提升熟人沟通效率方面具有显著效应，使其在社交、办公等场景被广泛运用，成为应用的基础能力。互动场景基于语音通话快速创新，比如游戏开黑、语聊派对、在线 K 歌、直播、教育等各类新颖、丰富、个性化的实时互动体验，渗透到用户的日常。

便捷性更是使得语音互动在随时随地发生，比如通勤时参与线上会议、用餐时与搭子远程唠嗑或者户外来一场直播等。随时随地互动的便捷习惯，也带来了比以往更复杂的通话环境，音质问题也比以往更加频繁了。

比如在人机互动中，嘈杂环境将明显降低识别准确率；多人会议中，任意用户携带明显噪音上麦，将冲击多人房氛围，不好的反馈也会影响用户本身的发言欲望，嘈杂的表现更会导致观众流失；K 歌应用在复杂的环境下，人声音质也将变得 " 沉闷浑浊 " 甚至 " 漏回声 "" 吞音 "，用户体验欠佳……

用户如何才能在复杂环境中拥有 " 丝滑 " 的互動体验？语音互动关键技术的创新突破是关键一环，重点在于如何在不失真的情况下尽量的把噪声去除的更干净，保证用户听的更清晰。

在这样的背景下，「即构科技」发布 Purio AI 音频引擎，通过更新 AI 降噪的算法效果、推出全新的的 AI 回声消除算法、动态响度均衡算法等核心算法，为用户带来纯净、保真、极致舒适的听觉体验。

用创新，为用户带来优质体验

Purio AI 是「即构科技」专注于音质增强的最新技术。

据悉，「即构科技」从 2015 年就开始走上自研音频引擎创新之路，其中 2015 年自研 3A 音频引擎、2018 年服务互联网头部客户超 70%，并不断推出适合各行业的一键接入语音互动解决方案、在 2021 年首发打通音乐版权商的全套 KTV 解决方案，技术上首创场景化 AI 降噪、K 歌专业 AEC 算法、首家支持单房间万人连麦的规模等等。

在 2022 年，「即构科技」正式发布 AI 降噪功能，彼时 AI 降噪在海外市场已经被广泛运用，而国内相对保守，根本原因在于国内对安静互动环境暂不依赖。然时过境迁，随着用户时常遇到噪音干扰，大到公共场所、户外闹市的人车嘈杂，室内场所的电视、音乐，小到键盘敲击、插拔耳机、咳嗽、吞咽等。

因此，好的语音互动体验，也就成为用户当下最迫切的需求。换言之，如何实现音质的提升，即主要的 3A 能力优化：降噪、回声消除、自动增益控制，成为解决用户痛点的核心能力。

首先，以降噪技术为例，传统降噪没法有效抑制瞬态噪声、传统回声消除对人声损伤较大等，也就存在环境适应能力差的问题。AI 技术的发展与加入，通过其较强的泛化能力，正好弥补传统方式在复杂环境中的适应能力。

不仅如此，AI 的能力让降噪和回声消除不仅能够适应用户多变的环境，有效抑制干扰同时还原人声，还能具备场景的识别能力，比如 AI 能充分理解 " 干扰 " 和 " 人声 " 的区别，做到精准分离；也能做到不同场景智能切换效果，比如进场音乐不是噪音、会议场景中掌声不是噪音等。

实际应用中，比如最早把 AI 引入到的移动社交产品的公司之一——趣丸科技，通过「即构科技」音频技术，保障 2 亿用户顺畅、优质的连麦体验，也持续为用户创造新的语音社交玩法。

趣丸科技 2022 年上线的 " 在线 K 歌 " 玩法，便是结合即构 Purio AI 音频引擎技术，实现了 K 歌场景效果的显著突破：动态响度均衡能力带来了精准人声伴奏对齐，解决 K 歌过程中人声与伴奏相互冲突的问题；K 歌打分技术提供了准确且及时反馈的演唱评分系统，能够结合音高、节奏、吐字、气息等多维度，对用户的唱歌水平进行更加全面、客观的评价……

TT 语音 × 即构科技合作案例

值得注意的是，AI 的加入，实际上也为语音互動带来了新的挑战，其中最突出的影响莫过于模型复杂，性能消耗巨大，给实时场景交付提出了很大的挑战。即在时延和功耗方面，落地到中低端机型里面不仅延迟高功耗大，容易发热，应用很难运用 AI 能力。

为解决此类由 AI 加入所产生的拖后腿问题，「即构科技」通过重参数化、参数共享、模型量化等多种技术手段，实现低开销、低延时、高保真的效果。新品 Purio AI 音频引擎依然保持以往超低延迟、轻量化特性，在延迟方面 AI 级算法

在过往的基础上，Purio AI 具有全场景 400+ 噪音种类识别与消除技术，相比 2022 年版本抑制效果提升 52%。在多重高精度 AI 技术加持下，抽丝剥茧剔除噪音，精准还原人声，人声保真度客观指标达到业界领先水平。同时，其还具备场景化 AI 降噪能力，能够智能调节 AI 降噪策略；AI 算法能够智能识别并消除高达 99.9% 的音频回声，多重高精度 AI 技术分离近端信号与回声信号，确保精准还原音质……

如今，「即构科技」音质增强技术已广泛用于直播、听歌、社交、电台等泛娱乐社交应用，以及金融双录、在线教育、视频会议、智能硬體等行业应用中。