百度自研视频生成模型MuseSteamer：中文音视频一体化，一图秒变电影级有声视频-天脉财经

百度商业研发团队近期宣布了一项重大技术突破，正式推出了自研的视频生成模型“MuseSteamer”及其配套的创作平台“绘想”。这一创新之举标志着全球首个能够实现中文音视频一体化生成的视频模型的诞生。

与传统的AIGC视频制作流程相比，MuseSteamer打破了“先画面后配音”的传统模式，实现了画面、音效与人声台词的协同创作，极大地提升了视频制作的效率与创意空间。

MuseSteamer的技术实力不容小觑。该模型支持从一张图片生成长达10秒、分辨率达到1080p的电影级画质视频。更令人惊叹的是，视频中的人物微表情与运镜效果均达到了专业影视制作的水准。这一成就的背后，是百度商业研发团队在亿级中文多模态数据清洗、精细化视频结构化描述语言以及多目标强化学习等关键技术上的深厚积累与优化。

为了满足不同创作者的需求，MuseSteamer模型家族推出了多个版本，包括Turbo、Lite、Pro及全系列有声版。这些版本覆盖了从普通视频创作者到专业影视制作机构的广泛需求。目前，Turbo版已在绘想平台上限时免费开放公测，而其他版本也将在8月陆续与公众见面。

百度商业研发团队的这一创新之举，无疑为视频创作领域带来了新的活力与可能。随着MuseSteamer的广泛应用，我们有理由期待更多富有创意与想象力的视频作品涌现，为观众带来更加丰富的视听盛宴。