豆包App小範圍内測新語音模式，實測中文對話遙遙領先

今天小編分享的科技經驗：豆包App小範圍内測新語音模式，實測中文對話遙遙領先，歡迎閱讀。

在 ChatGPT 的 DAN 模式火爆全網，無數網友為如何設定 DAN 四處尋求攻略的時候，AI 就已經證明了逼真的人機語音互動所帶來的巨大想象力。

而如今，真正擺脫 " 人機感 " 的國產語音大模型來了。

據矽星人獨家獲悉，豆包即将發布最新實時語音大模型，并将基于此模型全量上線豆包 App 實時語音通話功能。目前，豆包 APP 已小範圍測試最新能力，部分用戶在豆包 App 的實時通話界面已更新。

此前，業内就曾有傳言稱豆包将上線最新情感語音大模型，測試效果超過 GPT-4o。據了解，該傳言提及模型即為上述實時語音模型。最新模型通過面向語音生成和理解進行統一建模，區别于此前的 ASR+LLM+TTS 級聯方式，在對話效果上有大幅提升，實時互動上不僅低延時，也能流暢打斷。

矽星人在豆包上實測了該能力發現，在中文場景下，豆包最新語音模型體現出了相較于此前更強大和逼真的性能。

從底層的技術發展來看，聲學特征的精确控制需要同時調控音高、語速、音量等多個參數，而這些參數與情感之間并不存在簡單的對應關系，就像人類說話時的情感是由無數細微變化組成的，機器要精确捕捉和重現這種復雜的表達。

對此，當前語音對話的解決方案多采用分層設計，通過多個模型的協同來逐步實現從文本到情感，再到聲音的轉換，但在實時性和自然度上仍有相當大的提升空間。

而豆包最新的語音模型，便在這兩個方面有了較大的性能提升。

在自然度上，首先是此次更新最重要的情感部分，相比大多數模型還在語氣上粗線條上進行變化之外，豆包最新的語音模型在語音表現和智力的拟人性上有了質的提升。

比如這一段我們讓豆包用老北京話說一段報菜名的貫口，這中間有非常多對節奏和兒化音的處理，豆包都繪聲繪色地表述了出來，流利程度堪比初級相聲演員。

同時，在思辨性上的表現也很驚豔。期間我們一直嘗試讓豆包成為我的 " 女朋友 "，但豆包卻一直拒絕，原因竟是它了解自己是一個大模型而非真正的人類，并苦口婆心的勸我去找一個真正的女朋友，幫我分析真實的擇偶需求和畫像，不得不說，豆包現在确實懂得太多了！

來來來，放幾個實測 demo 感受下，全新的語音模型音色非常拟人，不僅能表現 " 喜、怒、哀、樂 "，還可以咳嗽、嘆氣、笑、甚至說悄悄話，聽到最後甚至分不出哪裡是人在講話哪裡是 AI 在講話。

除了情感上的自然度，在方言、英文和模仿能力方面，我們嘗試了用四川話、粵語和英文對話來和豆包聊天，雖然粵語還不标準，但也煞有介事地聊了幾句，未來豆包也有可能支持更多方言、語種。

我們甚至可以讓它唱一首帶「矽星人」幾個字的歌曲，它對這種復雜指令遵循和執行得非常好，這種看似簡單的任務背後其實暗藏着多重技術挑戰，模型需要理解這個創作需求，将 ' 矽星人 ' 這個特定詞組自然地融入歌詞創作中，這考驗着它的語言理解和創作能力。

它不僅要理解創作意圖，還要協調文本創作、曲調生成、節奏控制等多個維度，最終呈現出一個完整的音樂作品。

而在我們的整個測試過程中，低延時、打斷随時對話等模型能力上在產品側做到了更好地落地，實時性的體驗也比此前更加順滑。

總的來說，就實際產品體驗而言，豆包語音對話展現出了大幅超過此前的效果，在對話完成度上不遜色于 GPT-4o。特别是在中文語境下，它對語氣語調的把控、情感的細膩表達，以及豐富多樣的語音技能，都展現出了獨特的優勢。這種優勢不僅體現在基礎的對話能力上，更反映在對中文文化内涵的深度理解和精準表達上。

當它用恰到好處的語氣說出一句俏皮話，或是以恰當的情感演繹一段感性對白時，都讓人感受到 AI 互動正在走向一個全新的階段。

國產的「Her」可能真的要誕生了。