百度文小言官宣支持多模型調度

今天小編分享的科技經驗：百度文小言官宣支持多模型調度，歡迎閲讀。

IT 之家 3 月 31 日消息，今日在新一期百度 AI DAY 上，文小言宣布完成品牌煥新與功能更新。除品牌視覺形象煥新外，文小言聚焦模型開放與功能創新，支持多模型融合調度，更新全新語音大模型、圖片問答、AI 生圖生視頻等多項能力。

文小言此次更新的核心亮點在于 " 多模型融合調度 "。通過整合百度自研的文心 X1、文心 4.5 等模型，并接入 DeepSeek-R1、可靈等第三方優質模型，文小言實現了多模型間的智能協同。用户只需選擇 " 自動模式 "，即可一鍵調用最優模型組合，或根據需求靈活選擇單一模型完成特定任務，大幅提升響應速度與任務處理能力。

據 IT 之家了解，此次功能更新，文小言進一步提升了全新語音大模型、圖片問答、AI 生圖生視頻等能力。全新語音大模型支持方言對話、復雜知識問答及随時打斷等場景，用户可進行語音知識問答或趣味角色扮演。

百度語音首席架構師賈磊透露，該模型是百度在業界首個推出、基于全新互相關注意力 ( Cross-Attention ) 的端到端語音語言大模型。在語音場景滿足一定互動指标下，大模型調用成本比行業平均降低 50%-90%，推理響應速度極快，将語音互動等待時間壓縮至 1 秒左右，極大提升了互動流暢性。同時，在大模型加持下，實現了流式逐字的 LLM 驅動的多情感語音合成，情感飽滿、逼真、拟人，互動聽感也得到極大提升。

圖片問答功能讓用户可以通過拍攝或上傳圖片，以文字或語音提問直接獲取深度解析。例如，拍攝一道數學題可實時生成解題思路與視頻解析；上傳多款商品圖可對比參數、價格，輔助購物決策；拍攝杯子設計圖後，AI 可自動解析風格并生成同款手機殼、支架等周邊產品。

值得一提的是，新增的 " 圖個冷知識 " 功能更富趣味性，用户可預設 " 歷史學者 "" 科技達人 " 等人設視角，為同一圖片賦予多維解讀。例如，當用户詢問 " 貓窗探秘，為何貓愛窗邊的科學真相？"，文小言能從狩獵本能、能量獲取、領地意識等角度給出獨特解讀。