大酷樂
  • 汽車
  • 理财
  • 軍事
  • 科技
  • 遊戲
  • 互聯網
  • 娛樂
  • 财經
  • 科學
  • 社會
  • 親子
  • 電影
  • 健康
  • 教育
  1. 首頁
  2. 科學

語音界Deepseek!百度最新跨模态端到端語音互動,成本最高降90%

2025-04-03 简体 HK SG TW

今天小編分享的科學經驗:語音界Deepseek!百度最新跨模态端到端語音互動,成本最高降90%,歡迎閱讀。

沒想到,文小言接入推理模型的大更新背後,百度還藏了一手 " 質變 " 級技術大招???

Talk is cheap,直接來看 Demo:

士别三日,文小言不僅能講重慶話了,還是成了哄娃的一把好手,被花式打斷照樣應對如流:

實測下來,Demo 不虛。這個全新語音對話功能,确實更有人味兒了,還是能緊貼當下實事的那種——

只是讓 Ta 推薦周末放松去處,Ta 自己就能主動結合當前 4、5 月份的現實時間,給出更加合理的建議。

劃重點,這是免費的。現在你也一樣可以打開手機裡的文小言,直接體驗這一全新更新的實時語音對話功能。

但!是!

如果單說語音體驗,那還真不是這個 " 大招 " 的重點。關鍵是,這回百度還透露了更多技術細節。

我們仔細一看,還真是有意思了。

首先,上來就是一個行業首創:以上實時語音對話效果,由百度全新推出的端到端語音語言大模型實現,這是行業首個基于 Cross-Attention 的跨模态語音語言大模型。

有何不同?站在用戶體驗的角度來說,就是語音合成延遲更低,對話更真實有情感。

而更重要的一點是,這麼個新模上線,文小言在語音問答場景中的調用成本,最高能降低 90%!直接打掉了工業級落地的門檻。

(再也不怕模型廠流量大到挂我服務 .jpg)

我們注意到,百度語音首席架構師賈磊,其實用到了 " 質變 " 這個詞:

百度端到端語音語言大模型是有質變的,不是單純把文本大模型用到語音領網域。

語音場景有其獨特之處。此前,大家沒有充分挖掘這個應用場景的不同,還是按照把文本大模型用到語音場景的路線,把速度加快一下,工程優化一下。

我們的創新架構,讓大模型在語音場景中的應用實現了極低成本,更有利于大模型普及。

就是說,這一次語音技術的更新,不僅僅是工程上的技巧,百度正在通過技術創新,打通大模型落地語音場景的工業級應用新範式。

行業首個基于 Cross-Attention 的端到端語音語言模型

話說到這了,咱們就來一起仔細扒一扒背後技術方案,看看究竟是怎麼一回事。

先給大家劃個重點:

熟悉大模型的小夥伴都知道,KV cache 能夠加速自回歸推理,但其在存儲和訪問上的開銷,也會随着序列長度和模型規模增大而爆炸式增長。

因此在保證模型性能的前提下,降低 KV cache,對于大模型應用來說,是提升推理效率、降低成本的一大關鍵。

百度此次推出的基于 Cross-Attention 的端到端語音語言模型,重點就在于此。

具體來說,百度做了以下創新:

業内首創的基于 Cross-Attention 的跨模态語音語言大模型

Encoder 和語音識别過程融合,降低 KV 計算

Decoder 和語音合成模型融合

創新提出基于 Cross-Attention 的高效全查詢注意力技術(EALLQA),降低 KV cache

我們一項一項展開來看。

基于 Cross-Attention 的跨模态語音語言大模型

整體上,這個端到端語音語言大模型是基于 Self-Attention 的文心預訓練大模型,采用自蒸餾的方式進行後訓練得到。訓練數據為文本和語音合成數據的混合。整個模型采用 MoE 結構。

關鍵點在于,在端到端語音識别中,聲學模型也是語言模型,因此在整合語音識别和大語言模型的過程中,能夠通過将大語言模型中的 Encoder 和語音識别的過程融合共享,達到降低語音互動硬延遲的目的。

而在語音領網域,Cross-Attention 天然具有跨模态優勢:Decoder 會顯式地将 Encoder 輸出納入注意力計算,使得 Decoder 在每一個解碼步驟都能動态訪問最相關的輸入向量,從而充分地對齊和利用跨模态信息。

基于 Cross-Attention 的高效全查詢注意力技術(EALLQA)

不過,Cross-Attention 的引入帶來了另一個問題:MLA 的位置編碼技術,在 Cross-Attention 中容易出現不穩定的現象。

為此,百度語音團隊提出了高效全查詢注意力技術(EALLQA):

采用創新的隐式 RNN 兩級位置編碼,訓練時是在 128 空間上的 MHA,推理時是在模型各層共享的 512 空間上的 MQA(AllQA)。既充分利用了有限的訓練資源,也極大地降低了推理成本。

從具體效果上來說,EALLQA 技術能使 KV cache 降至原來的幾十分之一,并将 Cross-Attention 的最近上一個問題的 KV 計算降至原來的十分之一,極大降低了語音互動時用戶的等待時間和模型推理成本。

降低成本的另一個關鍵,則是 Encoder 和語音識别系統的融合:對 Query 理解的模型較小,能極大減少 KV 計算。

流式逐字的 LLM 驅動的多情感語音合成

訓練、推理成本的降低之外,端到端語音語言大模型還通過語音模型和語言模型的融合,實現了文體恰當、情感契合、自然流暢的合成音頻的生成。

一方面,研發團隊通過大規模文本 - 語音數據自監督預訓練,構建語義 + 韻律的離散化特征空間,通過雙層 GPT-like Transformer,實現了韻律、音色雙 Prompt 控制機制。

另一方面,在此基礎之上,研發團隊推出了語音語言大模型與合成一體化流式逐字合成。

有别于傳統語音合成的整句輸出,流式逐字相當于一個字一個字地合成。在這個過程中,語言大模型能夠指導語音模型去生成情感、停頓,識别多音字等等,實現更為拟人、自然的語音合成效果。

需要注意的是,人耳接收信息實際上是一個字一個字地接收,但對于 AI 而言,如果 1 個 token 接 1 個 token 的輸出,就需要解決并發的問題,以使 MoE 架構最大程度發揮作用。

流式逐字合成要解決的核心問題,就是在适配人聽力的基礎上,實現高并發。

通過引入流式逐字合成,百度端到端語音語言大模型有效提升了語音互動的響應速度,同時降低了語音互動領網域使用大模型成本。與大模型融合的 TTS 文體風格情緒控制,還可以根據文本輸出自适配的情況,情感覆蓋達到 17 種。

簡單總結一下,百度的端到端語音語言大模型,一方面是重點解決了大模型應用于語音互動場景成本高、速度慢的問題。

另一方面,大語言模型帶來的語義理解等能力,也解決了傳統語音互動中,同音字識别、打斷、真實情感等痛點。

賈磊透露,目前,整個端到端語音語言大模型在 L20 卡上即可部署,在滿足語音互動硬延遲要求的情況下,雙 L20 卡并發可以做到數百以上。

極低成本是關鍵

說了這麼多,最主要的關鍵詞其實就是:低成本。

在與賈磊的進一步交流中,他向我們強調了降低成本的重要性:

極低成本就意味着大規模工業化變得非常容易。

2025 年,大模型的核心并不在于展示什麼新功能,而是能以多快速度真正應用到國計民生中去。

在不考慮計算資源的情況下,實時語音互動有其他路徑可以實現,但 " 我們今天是第一個做到跨模态端到端極低成本解決語音問題的 "。

賈磊還表示,希望語音領網域的這一突破創新能被行業更多地關注到。

我們想要把核心技術分享出去,告訴大家我們是怎麼做的,以此推動整個領網域的爆發。

事實上,不僅是百度,在包含語音的大模型能力對外輸出上,國内外廠商都将價格視作突破口。

OpenAI 就專門從性價比出發,推出了 GPT-4o mini audio,希望以更低廉的價格打入語音應用市場。

2025 年,基礎模型方面,模型廠商在推理模型上争相競逐,而其帶來的最直接的影響之一,是人們對于大模型應用加速爆發預期的持續升溫。在這個過程中,我們可以看到,站在模型廠商的角度,更多的模型在被開源,更多的服務在免費開放,用戶認知、關注的争奪之中,成本本身正在變得更加敏感。

更不用提成本即是大規模應用的關鍵:不僅是在模型廠商們的 APP 上,還要進一步走進手機、汽車……

正如 DeepSeek 在基礎模型領網域攪動池水,現在,百度也在語音領網域邁出關鍵一步。

成本,正在成為當前階段模型廠商獲得主動權的重要突破口。

One More Thing

從文小言的語音互動架構圖中還可以看到,它像是個語音版百度搜索。

正如文章開篇我們體驗到的,文小言能結合當前的季節對用戶問題給出更合理的回答。實際上,在語音功能中,文小言已經支持多垂類助手能力,包括天氣、日歷查詢、部門換算、股價股票等信息查詢内容,共計 38 個垂類。

還支持 DeepQA RAG 問答,包含百度查詢等時效性問答内容,能結合檢索結果,做到更精準的指令跟随;支持 DeepQA 非 RAG 問答,包含常識問答等非時效性問答内容。

" 有問題,問小言 " 的這個 " 問 " 字,确實是越來越接近人類原本的互動習慣了。

這實際也是產業趨勢的一種映射——

之前都是大模型技術探索,需要不斷适配才能落地產品、形成應用,最後被用戶感知。

現在這是大模型技術和產品應用,幾乎在同時對齊,技術推進的時候就瞄準了應用場景,應用場景也能催生更适合的技術,不是錘子找釘子,而是錘子釘子同時對齊。

大模型依然是 AI 世界的核心,但天下卻正在變成應用為王的天下。

百度,或者說中國 AI 玩家,開始找到自己的節奏了。

一鍵三連「點贊」「轉發」「小心心」

歡迎在評論區留下你的想法!

—  完  —

點亮星标

科技前沿進展每日見

熱門排行
  • 王治郅:楊瀚森主要的問題是速度 他的速度跟不上現代籃球的節奏 王治郅:楊瀚森主要的問題是速度 他的速度跟 郟君昊 | 2025-05-05
  • 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 逼好萊塢等回美拍片 貿易戰燒進電影院:特朗普拟重稅打擊外國電影 習又夏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 寸飛蘭 | 2025-05-05
  • 手機電池突破8000mAh?矽碳技術的回旋镖:「折壽」換容量 手機電池突破8000mAh?矽碳技術的回旋镖:「折 衛青柏 | 2025-05-05
  • 貸款追高炒黃金的人後悔了!有人一天虧掉6年工資,賣掉舍不得,不賣扛不住 貸款追高炒黃金的人後悔了!有人一天虧掉6年 繁綺文 | 2025-05-05
  • 任天堂對Genki提起Switch 2商标侵權訴訟,後者回應稱将嚴肅對待 任天堂對Genki提起Switch 2商标侵權訴訟,後 郜萌運 | 2025-05-05
  • 哪吒汽車APP和官網恢復正常 知情人士:之前斷網因流量欠費 哪吒汽車APP和官網恢復正常 知情人士:之前斷 袁曼雁 | 2025-05-05
  • 極越汽車 CEO 夏一平名下青島/義烏兩家公司被列入經營異常 極越汽車 CEO 夏一平名下青島/義烏兩家公司 集玲琳 | 2025-05-05
  • 全國經濟第一大省明确,推動組建農商聯合銀行 全國經濟第一大省明确,推動組建農商聯合銀行 佼昌翰 | 2025-05-05
  • 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩更專注進球&更像C羅 桑保利:亞馬爾有配合意識&有點像梅西 姆巴佩 甄正浩 | 2025-05-05
  • 高露現身上海虹橋機場 黑色外套點綴亮色愛心裝飾俏皮亮眼 高露現身上海虹橋機場 黑色外套點綴亮色愛 惠惠君 | 2023-05-02
  • 《歧路旅人2》:向光而生 《歧路旅人2》:向光而生 衛青柏 | 2023-05-02
  • vivo X90S曝光:處理器更新為天玑9200+ 安卓最強芯 vivo X90S曝光:處理器更新為天玑9200+ 安卓最 袁曼雁 | 2023-05-05
  • “懶癌”發病率上升,定期體檢别忽視 “懶癌”發病率上升,定期體檢别忽視 幸聽楓 | 2023-05-02
  • 宋慧喬獲百想視後 韓素希發圖手動加愛心表情慶祝 宋慧喬獲百想視後 韓素希發圖手動加愛心表 賁芳蕤 | 2023-05-02
  • 曹操墓,裡面都有啥? 曹操墓,裡面都有啥? 衛青柏 | 2023-05-02
  • 十年了,他們終于要HE! 十年了,他們終于要HE! 惠惠君 | 2023-05-07
  • 中央部署經濟工作,釋放5大信号 中央部署經濟工作,釋放5大信号 郜萌運 | 2023-05-02
  • 高德上線手機彎道會車預警功能 高德上線手機彎道會車預警功能 習又夏 | 2023-05-02
  • 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露面 陳自瑤抱病為愛女做蛋糕慶生,王浩信點贊沒露 賁芳蕤 | 2023-05-02
  • 等比例長大的童星,李蘭迪算一個 等比例長大的童星,李蘭迪算一個 郟君昊 | 2023-05-02
  • 這些被抓來做實驗的流浪狗,最終拯救了無數糖尿病人 這些被抓來做實驗的流浪狗,最終拯救了無數糖 集玲琳 | 2023-05-02
  • 高端國產車:軍車血統,目前電動車越野的“天花板”? 高端國產車:軍車血統,目前電動車越野的“天花 謝飛揚 | 2023-05-02
  • 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 《雲襄傳》終于抬上來啦,男O女A讓人好上頭! 集玲琳 | 2023-05-02
  • 21家A股遊戲公司2022年收入651億 今年“遊戲+AI”能否逆風翻盤? 21家A股遊戲公司2022年收入651億 今年“遊 衛青柏 | 2023-05-04
  • 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15日 與周立波夫婦鬧糾紛成老賴,唐爽被司法拘留15 寸飛蘭 | 2023-05-05
  • 信用風險釋放趨緩,結構性風險需重點關注 ——2023年一季度債市信用風險回顧與下階段展望 信用風險釋放趨緩,結構性風險需重點關注 — 袁曼雁 | 2023-05-02
  • 普京籤署總統令,批準對俄刑法典相關法條的修正案 普京籤署總統令,批準對俄刑法典相關法條的修 集玲琳 | 2023-05-02
  • 解除資格!停止一切合作 解除資格!停止一切合作 佼昌翰 | 2023-05-02
  • 中銀證券給予南京銀行增持評級 中銀證券給予南京銀行增持評級 袁曼雁 | 2023-05-03
  • 3699起 聯想小新mini主機上架 13代酷睿标壓處理器 3699起 聯想小新mini主機上架 13代酷睿标壓 習又夏 | 2023-05-05
  • 前董事長被免,天山生物全面進入“中植系”時代?股價曾在一月内暴漲超400% 前董事長被免,天山生物全面進入“中植系”時 惠惠君 | 2023-05-02
  • 瘋成這樣,怎麼還能被全網吹捧? 瘋成這樣,怎麼還能被全網吹捧? 郜萌運 | 2023-05-02
  • 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 狂吼11次“讓一下”!交警咆哮開道嘶吼到吐 寸飛蘭 | 2023-05-03
  • 摩根大通收購美國第一共和銀行 摩根大通收購美國第一共和銀行 謝飛揚 | 2023-05-02
  • 台劇赢麻了,又來一部8.9 台劇赢麻了,又來一部8.9 衛青柏 | 2023-05-02
  • 下降45分,上漲35分!34所自劃線院校復試分數線漲幅匯總 下降45分,上漲35分!34所自劃線院校復試分數線 袁曼雁 | 2023-05-07
  • 事關農村土地承包和農民權益,《農村土地承包合同管理辦法》5月1日起施行 事關農村土地承包和農民權益,《農村土地承包 郟君昊 | 2023-05-02
  • "三高"已盯上青少年,做好這件事是關鍵 "三高"已盯上青少年,做好這件事是關鍵 習又夏 | 2023-05-05
  • 五一檔沒一個能打的 五一檔沒一個能打的 集玲琳 | 2023-05-05
  • 恐怖韓劇下神壇,這次膽小可入 恐怖韓劇下神壇,這次膽小可入 袁曼雁 | 2023-05-05
  • 這劇是不是用ChatGPT寫的呀? 這劇是不是用ChatGPT寫的呀? 惠惠君 | 2023-05-02
  • 200戶連夜疏散,原因讓人憤怒!“損失超一億”,官方通報 200戶連夜疏散,原因讓人憤怒!“損失超一億”, 袁曼雁 | 2023-05-03
  • 性騷擾慣犯,滾出娛樂圈 性騷擾慣犯,滾出娛樂圈 謝飛揚 | 2023-05-05
  • 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的生活》證實将停辦 48歲何炅自曝已老花眼,黃磊睡前認老,《向往的 佼昌翰 | 2023-05-02
  • 一個《長月燼明》倒了,《狐妖》《長相思》《與鳳行》…在路上了 一個《長月燼明》倒了,《狐妖》《長相思》《 惠惠君 | 2023-05-02
  • 張天愛假期曬“酷”存照 卷發披肩穿黑色吊帶裙大秀好身材 張天愛假期曬“酷”存照 卷發披肩穿黑色吊 嬴覓晴 | 2023-05-02
  • 當年輕人開始不随份子錢 當年輕人開始不随份子錢 袁曼雁 | 2023-05-02
  • 畢滢用8年時間成功逼宮?曾被傳已婚生子的她,不容小觑 畢滢用8年時間成功逼宮?曾被傳已婚生子的她, 幸聽楓 | 2023-05-03
  • 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 宋慧喬獲視後首次曬照,拿獎杯笑容溫柔 郜萌運 | 2023-05-02

©2022 大酷樂 版權所有

隱私政策 | 服務條款 | 聯繫我們