百度文小言官宣支持多模型调度

今天小编分享的科技经验：百度文小言官宣支持多模型调度，欢迎阅读。

IT 之家 3 月 31 日消息，今日在新一期百度 AI DAY 上，文小言宣布完成品牌焕新与功能更新。除品牌视觉形象焕新外，文小言聚焦模型开放与功能创新，支持多模型融合调度，更新全新语音大模型、图片问答、AI 生图生视频等多项能力。

文小言此次更新的核心亮点在于 " 多模型融合调度 "。通过整合百度自研的文心 X1、文心 4.5 等模型，并接入 DeepSeek-R1、可灵等第三方优质模型，文小言实现了多模型间的智能协同。用户只需选择 " 自动模式 "，即可一键调用最优模型组合，或根据需求灵活选择单一模型完成特定任务，大幅提升响应速度与任务处理能力。

据 IT 之家了解，此次功能更新，文小言进一步提升了全新语音大模型、图片问答、AI 生图生视频等能力。全新语音大模型支持方言对话、复杂知识问答及随时打断等场景，用户可进行语音知识问答或趣味角色扮演。

百度语音首席架构师贾磊透露，该模型是百度在业界首个推出、基于全新互相关注意力 ( Cross-Attention ) 的端到端语音语言大模型。在语音场景满足一定互動指标下，大模型调用成本比行业平均降低 50%-90%，推理响应速度极快，将语音互動等待时间压缩至 1 秒左右，极大提升了互動流畅性。同时，在大模型加持下，实现了流式逐字的 LLM 驱动的多情感语音合成，情感饱满、逼真、拟人，互動听感也得到极大提升。

图片问答功能让用户可以通过拍摄或上传图片，以文字或语音提问直接获取深度解析。例如，拍摄一道数学题可实时生成解题思路与视频解析；上传多款商品图可对比参数、价格，辅助购物决策；拍摄杯子设计图后，AI 可自动解析风格并生成同款手机壳、支架等周边产品。

值得一提的是，新增的 " 图个冷知识 " 功能更富趣味性，用户可预设 " 历史学者 "" 科技达人 " 等人设视角，为同一图片赋予多维解读。例如，当用户询问 " 猫窗探秘，为何猫爱窗边的科学真相？"，文小言能从狩猎本能、能量获取、领地意识等角度给出独特解读。