百度文小言焕新升级，多模型协同打造全新语音与图像交互体验！-天脉网

百度AI DAY近期迎来了一场引人注目的盛会，文小言品牌在这一重要平台上宣布了全面的品牌升级与功能革新。此次升级不仅仅是品牌形象的焕然一新，更是聚焦于模型开放与技术创新，旨在为用户提供更为强大和便捷的AI体验。

文小言的核心亮点在于其“多模型融合调度”技术。通过整合百度自主研发的文心X1、文心4.5等前沿模型，并引入DeepSeek-R1、可灵等第三方优质模型，文小言成功实现了多模型间的智能协同，为用户带来了更为丰富和高效的AI服务。

在此次功能升级中，文小言对全新语音大模型、图片问答、AI生图生视频等能力进行了全面优化。全新语音大模型尤为引人注目，它支持方言对话、复杂知识问答以及随时打断等场景，用户可以通过语音进行知识问答或进行趣味角色扮演，极大地提升了用户体验。

文小言品牌升级示意图

百度AI产品创新业务负责人薛苏表示，AI的未来已经超越了单纯的技术参数比拼，关键在于如何通过多模型协同，真正为用户创造价值。文小言正是基于这一理念，通过开放生态，整合顶尖模型能力，致力于打造出更强大、更简单的AI产品。

全新语音大模型作为此次升级的重要一环，不仅支持多种方言对话，还具备复杂知识问答的能力。用户可以在与模型的交互中，随时打断并提问，模型也能迅速响应，提供准确的答案。该模型还支持趣味角色扮演，为用户带来更为丰富的交互体验。

百度语音首席架构师贾磊透露，全新语音大模型是百度在业界首个推出的基于全新互相关注意力（Cross-Attention）的端到端语音语言大模型。在语音场景满足一定交互指标下，该模型的调用成本比行业平均降低了50%～90%，推理响应速度极快，将语音交互等待时间压缩至1秒左右，极大地提升了交互的流畅性。同时，在大模型的加持下，实现了流式逐字的LLM驱动的多情感语音合成，使得语音合成的情感更为饱满、逼真、拟人，交互听感也得到了极大的提升。