今天小編分享的科技經驗:百度端到端語音語言大模型發布,成本宣稱最高降 90%,歡迎閲讀。
IT 之家 3 月 31 日消息,在今日的百度 AI DAY 上,百度發布首個基于全新互相關注意力(Cross-Attention)的端到端語音語言大模型,宣布實現超低時延與超低成本,在電話語音頻道的語音問答場景中,調用成本較行業均值下降約 50%-90%。
當日,文小言宣布品牌煥新,率先接入該模型,還帶來多模型融合調度、圖片問答等功能更新。接入該模型後,文小言不僅能支持更拟真的語聊效果,而且支持重慶、廣西、河南、廣東、山東等特色方言。據介紹,語音大模型具備極低的訓練和使用成本,極快的推理響應速度,語音互動時,可将用户等待時長從行業常見的 3-5 秒降低至 1 秒左右。
更新後的文小言還支持 " 多模型融合調度 ",整合了百度自研的文心 X1、文心 4.5 等模型,并接入 DeepSeek-R1 等第三方優質模型,實現了多模型間的智能協同。用户可以選擇 " 自動模式 ",一鍵調用最優模型組合,也可根據需求選擇單一模型完成特定任務,提升響應速度與任務處理能力。
IT 之家從活動中獲悉,文小言還加強了圖片問答功能,用户拍攝或上傳圖片,以文字或語音提問即可直接獲取深度解析。例如,拍攝一道數學題可實時生成解題思路與視頻解析;上傳多款商品圖可對比參數、價格,輔助購物決策。
此外,文小言新增 "圖個冷知識" 功能,用户可預設 " 歷史學者 "" 科技達人 " 等人設視角,為同一圖片賦予多維解讀。例如,當用户詢問 " 貓窗探秘,為何貓愛窗邊的科學真相?",文小言能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。
百度語音首席架構師賈磊透露,該模型是百度在業界首個推出、基于全新互相關注意力 ( Cross-Attention ) 的端到端語音語言大模型。"在語音場景滿足一定互動指标下,大模型調用成本比行業平均降低 50%-90%,推理響應速度極快,将語音互動等待時間壓縮至 1 秒左右,極大提升了互動流暢性。同時,在大模型加持下,實現了流式逐字的 LLM 驅動的多情感語音合成,情感飽滿、逼真、拟人,互動聽感也得到極大提升。"