今天小編分享的科學經驗:聲網劉斌:“Her”真正落地實現離不開RTE能力的支撐,歡迎閲讀。
大模型正在改變實時互動技術。
聲網作為全球音視頻技術龍頭,2020 年在納斯達克上市,目前是全球最大的實時互動雲服務商,平台單月音視頻使用時長達 700 億分鍾。
同時,聲網兄弟公司 Agora 也是 OpenAI Realtime API 的合作夥伴,在國内聲網也與 MiniMax 正在打磨國内首個 Realtime API。
在 MEET 2025 智能未來大會大會現場,聲網首席運營官劉斌分享了一個看似離大模型有點距離,實則卻不可或缺的環節:
RTE(Real Time Engagement)在 AI Agent 時代的全新價值。
為了完整體現劉斌的思考,在不改變原意的基礎上,量子位對演講内容進行了編輯整理,希望能給你帶來更多啓發。
MEET 2025 智能未來大會是由量子位主辦的行業峰會,20 餘位產業代表與會讨論。線下參會觀眾 1000+,線上直播觀眾 320 萬 +,獲得了主流媒體的廣泛關注與報道。
核心觀點
多模态對話體驗的兩個關鍵:延遲是否低于 1.7 秒,能否打斷
多模态對話 AI Agent 應用產品化落地的關鍵:端到端、全球任意地點、弱網環境、各種終端下的低時延
不管是語音 , 還是視頻 , 只要是多模态有互動的 AI Agent 應用 , 離不開 RTE 能力的支持
演講全文
今天非常高興有這樣機會來到現場跟分享,聲網作為 RTE 領網域的企業,和 AI 領網域的大模型與應用廠商,和當下的大模型關系是什麼,RTE 演進如何助力 AI Agent 應用落地。
第一,聲網到底是誰。
聲網于 2020 年在納斯達克上市,專注于提供實時互動雲服務。經過多年的發展,該公司在該行業取得了一定的進步。
我們公司的口号簡潔明了,即讓實時互動像空氣和水一樣,無處不在。
這一理念旨在實現未來無論身處何地,都能獲得如同面對面般的互動體驗。經過多年的努力,我們在市場占有率方面位居第一,并擁有大量注冊開發者應用。
單月音視頻分鍾數約為 700 億,這意味着每天在我們平台上的分鍾數約為 20 多億。在這種情況下,全球超過 60% 的泛娛樂應用選擇聲網作為其合作夥伴。我們涉及的領網域包括泛娛樂、教育和物聯網等,均擁有相應的合作夥伴。
第二,我們做的事到底和 AI Agent 有什麼關系,如何去助力它。
首先,值得關注的是,OpenAI 于 10 月 1 日在官方網站發布 Realtime API 時,曾在合作夥伴中提及 Agora,即我們聲網的兄弟公司。
其次,在 10 月份的 RTE 大會上,我們宣布與 MiniMax 正在打磨國内第一個 Realtime APl。
第三,AI Agent 時代到底怎麼樣做才能做的更好。
我們可以觀察到,在真正多模态模型推出或對話時,相較于原先的純文本互動,已經發生了變化。
原先的互動本質上是異步的,即我可以發送信息,説完後等待處理并返回結果。然而,在真正多模态互動中,要求實時性和雙工性,即我説他聽,他聽完後我再聽。
在這個過程中,有幾個關鍵因素會影響效果。
首先,大家較為熟悉的語氣、情感、情緒和口音等因素在模型中得到了大量處理。
其次,延遲也是一個非常重要的因素。相信大家都有相關的感受。
從實際測量數據來看,真正達到實用效果的延遲一般在 1.7 秒左右。如果低于這個值,人們會覺得與 Agent 交流很自然;而如果延遲達到 2 秒多或 3 秒,人們就會感覺到有些卡頓,反應稍顯遲緩。這是一個非常重要的關鍵點。
另一個關鍵點是,能否實現打斷功能以及如何更好地進行主動互動。
要實現這些功能,除了模型能力外,還需考慮應用的落地方式。是在實驗室的 PC 上進行演示,還是将其應用于各種手機終端、物聯網終端以及其他設備上?
當有此需求時,在產品化落地的過程中會發現,除了之前提到的低時延等能力外,還需要在端到端都能實現。此外,還需在不同地點、不同網絡環境下以及各種終端設備上都能得到支持,這并非易事。
關于這張圖,盡管大家可能不太關注,但我們當時非常重視。這是 5 月份 OpenAI GPT-4o 發布時的情況,大家可以看那根網線,這是要保證網絡的穩定性。
在 4o 發布之後,大家都在等待 API 的推出,原本預期一周或兩周内會推出,但實際上并非如此,直至 10 月份才發布。原因在于,一開始大家認為這件事很簡單,只需對原有的 RTP Server 進行修改,将文本傳輸改為語音傳輸即可。
然而,實際情況并非如此簡單。我們與他們合作,直至 10 月份才正式推出。正是我們在其中發揮作用,使其真正落地實現。
在此,我向大家展示聲網多年來的工作成果。
首先,我們擁有一張遍布全球的 SD-RTN 網絡,确保在這張網絡上音視頻傳輸都能在标準的 400 毫秒内端到端到達,這是網絡支撐。其次,我們多年的積累使我們能夠在 30 多個平台的框架和 30000 多終端機型上提供 SDK 支持,涵蓋各種作業系統。您只需很快地建立這個能力。包括物聯網的各種設備終端,都有相應的 SDK。
此外,在實際應用中,如我們在這個會場,如果我要與 AI 對話,網絡情況和環境噪聲并非固定不變。如何在極端弱網下保證效果,這也是我們多年技術積累的結果。
正是我們在這一領網域的深厚積累,使得我們能夠構建一個具有實際應用價值的 Voice 對話 Agent。只有将這兩者緊密結合,才能實現這一目标。這也解釋了為什麼在發布 Realtime API 時,我們需要尋找這樣的合作夥伴共同推進。
我們還發現,現有的 RTC 技術棧和基礎設施存在大量改進空間。只有通過改進,大型模型才有可能在各種場景、形态和模型下大規模參與到人類的語言對話中,其參與來源也将從雲端擴展到終端,再到更低延遲的邊緣。基于這些能力的改進和普及,未來 RTE 必将成為生成式 AI 時代 AI 基礎設施(AI Infra)的關鍵組成部分。
如圖右側紅色部分所示,Realtime API 通常由大型模型廠商發布。然而,在左側這一圈,包括中間的網絡和聲網的 Linux Server SDK,以及前端的 SDK,如果沒有這樣的基礎,我們将很難實現這一整套效果。這正是我之前所解釋的原因。如果中間的這些環節未能實現,那麼效果将無法顯現。
在此,我們将從當前視角出發,探讨未來的行動方向以及如何進一步提升效果。近期,我們一直在深入研究和投入資源,以優化人與人之間的對話體驗。然而,在人與模型之間的對話中,體驗的提升需要充分考慮模型的特性。
例如,我們從傳統的 QoS、QoE 發展到如今的 AI QoE,乃至多模态 AI QoE,這其中涵蓋了 VAD 技術、噪音消除能力以及相關網絡優化等方面。這些新的方法和方式使得我們與模型的對話更加貼近實際情況。以一個簡單的例子來説明,人與人交談時不會夾雜其他信息,但人與模型對話時則可能不同,語音傳輸過程中可能還包含其他信息。因此,在弱網環境和應用場景中如何實現良好适配,便顯得尤為重要。
我們曾在 RTE 大會上展示過一個實例,當時的會場規模較大,人數眾多且環境嘈雜,我們在現場使用了一個 5G 設備進行演示。
我們想做到的是從 60 分提升到 90 分,這不僅涉及模型難度的提高,還包括周邊工程配套的完善,以便将產品從演示階段發展為更具實用性的應用。
關于聲網的產品體系,我們正不斷加強其功能,如 Linux SDK、AI VAD 能力以及 AI Agent Service 的補充與優化。通過聲網 RTE+AI 能力全景圖,我們可以看到我們的整體思路,包括從基礎設施到 Agent,再到場景的演進,旨在成為生成式 AI 時代的 AI 基礎設施,這也是我們的願景。
最後,我想強調一點:
任何涉及大模型多模态實時互動的應用,無論是語音還是視頻,只要存在多模态互動,這類 Agent 應用的落地都離不開 RTC 技術的支持。
在這種情況下,如果大家有這樣的需求,請來找聲網,我們一定給大家更好的體驗。
謝謝大家,今天就到這裏。
— 完 —
點這裏關注我,記得标星哦~
一鍵三連「分享」、「點贊」和「在看」
科技前沿進展日日相見 ~
>