天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

百度文小言焕新升级,多模型协同打造全新语音与图像交互体验!

2025-03-31来源:天脉网编辑:瑞雪

百度AI DAY近期迎来了一场引人注目的盛会,文小言品牌在这一重要平台上宣布了全面的品牌升级与功能革新。此次升级不仅仅是品牌形象的焕然一新,更是聚焦于模型开放与技术创新,旨在为用户提供更为强大和便捷的AI体验。

文小言的核心亮点在于其“多模型融合调度”技术。通过整合百度自主研发的文心X1、文心4.5等前沿模型,并引入DeepSeek-R1、可灵等第三方优质模型,文小言成功实现了多模型间的智能协同,为用户带来了更为丰富和高效的AI服务。

在此次功能升级中,文小言对全新语音大模型、图片问答、AI生图生视频等能力进行了全面优化。全新语音大模型尤为引人注目,它支持方言对话、复杂知识问答以及随时打断等场景,用户可以通过语音进行知识问答或进行趣味角色扮演,极大地提升了用户体验。

文小言品牌升级示意图

百度AI产品创新业务负责人薛苏表示,AI的未来已经超越了单纯的技术参数比拼,关键在于如何通过多模型协同,真正为用户创造价值。文小言正是基于这一理念,通过开放生态,整合顶尖模型能力,致力于打造出更强大、更简单的AI产品。

全新语音大模型作为此次升级的重要一环,不仅支持多种方言对话,还具备复杂知识问答的能力。用户可以在与模型的交互中,随时打断并提问,模型也能迅速响应,提供准确的答案。该模型还支持趣味角色扮演,为用户带来更为丰富的交互体验。

百度语音首席架构师贾磊透露,全新语音大模型是百度在业界首个推出的基于全新互相关注意力(Cross-Attention)的端到端语音语言大模型。在语音场景满足一定交互指标下,该模型的调用成本比行业平均降低了50%~90%,推理响应速度极快,将语音交互等待时间压缩至1秒左右,极大地提升了交互的流畅性。同时,在大模型的加持下,实现了流式逐字的LLM驱动的多情感语音合成,使得语音合成的情感更为饱满、逼真、拟人,交互听感也得到了极大的提升。