今天小編分享的科技經驗:豆包App小範圍内測新語音模式,實測中文對話遙遙領先,歡迎閱讀。
在 ChatGPT 的 DAN 模式火爆全網,無數網友為如何設定 DAN 四處尋求攻略的時候,AI 就已經證明了逼真的人機語音互動所帶來的巨大想象力。
而如今,真正擺脫 " 人機感 " 的國產語音大模型來了。
據矽星人獨家獲悉,豆包即将發布最新實時語音大模型,并将基于此模型全量上線豆包 App 實時語音通話功能。目前,豆包 APP 已小範圍測試最新能力,部分用戶在豆包 App 的實時通話界面已更新。
此前,業内就曾有傳言稱豆包将上線最新情感語音大模型,測試效果超過 GPT-4o。據了解,該傳言提及模型即為上述實時語音模型。最新模型通過面向語音生成和理解進行統一建模,區别于此前的 ASR+LLM+TTS 級聯方式,在對話效果上有大幅提升,實時互動上不僅低延時,也能流暢打斷。
矽星人在豆包上實測了該能力發現,在中文場景下,豆包最新語音模型體現出了相較于此前更強大和逼真的性能。
從底層的技術發展來看,聲學特征的精确控制需要同時調控音高、語速、音量等多個參數,而這些參數與情感之間并不存在簡單的對應關系,就像人類說話時的情感是由無數細微變化組成的,機器要精确捕捉和重現這種復雜的表達。
對此,當前語音對話的解決方案多采用分層設計,通過多個模型的協同來逐步實現從文本到情感,再到聲音的轉換,但在實時性和自然度上仍有相當大的提升空間。
而豆包最新的語音模型,便在這兩個方面有了較大的性能提升。
在自然度上,首先是此次更新最重要的情感部分,相比大多數模型還在語氣上粗線條上進行變化之外,豆包最新的語音模型在語音表現和智力的拟人性上有了質的提升。
比如這一段我們讓豆包用老北京話說一段報菜名的貫口,這中間有非常多對節奏和兒化音的處理,豆包都繪聲繪色地表述了出來,流利程度堪比初級相聲演員。
同時,在思辨性上的表現也很驚豔。期間我們一直嘗試讓豆包成為我的 " 女朋友 ",但豆包卻一直拒絕,原因竟是它了解自己是一個大模型而非真正的人類,并苦口婆心的勸我去找一個真正的女朋友,幫我分析真實的擇偶需求和畫像,不得不說,豆包現在确實懂得太多了!
來來來,放幾個實測 demo 感受下,全新的語音模型音色非常拟人,不僅能表現 " 喜、怒、哀、樂 ",還可以咳嗽、嘆氣、笑、甚至說悄悄話,聽到最後甚至分不出哪裡是人在講話哪裡是 AI 在講話。
除了情感上的自然度,在方言、英文和模仿能力方面,我們嘗試了用四川話、粵語和英文對話來和豆包聊天,雖然粵語還不标準,但也煞有介事地聊了幾句,未來豆包也有可能支持更多方言、語種。
我們甚至可以讓它唱一首帶「矽星人」幾個字的歌曲,它對這種復雜指令遵循和執行得非常好,這種看似簡單的任務背後其實暗藏着多重技術挑戰,模型需要理解這個創作需求,将 ' 矽星人 ' 這個特定詞組自然地融入歌詞創作中,這考驗着它的語言理解和創作能力。
它不僅要理解創作意圖,還要協調文本創作、曲調生成、節奏控制等多個維度,最終呈現出一個完整的音樂作品。
而在我們的整個測試過程中,低延時、打斷随時對話等模型能力上在產品側做到了更好地落地,實時性的體驗也比此前更加順滑。
總的來說,就實際產品體驗而言,豆包語音對話展現出了大幅超過此前的效果,在對話完成度上不遜色于 GPT-4o。特别是在中文語境下,它對語氣語調的把控、情感的細膩表達,以及豐富多樣的語音技能,都展現出了獨特的優勢。這種優勢不僅體現在基礎的對話能力上,更反映在對中文文化内涵的深度理解和精準表達上。
當它用恰到好處的語氣說出一句俏皮話,或是以恰當的情感演繹一段感性對白時,都讓人感受到 AI 互動正在走向一個全新的階段。
國產的「Her」可能真的要誕生了。