阿里巴巴近期在人工智能领域迈出了重要一步,宣布将旗下功能全面的视频生成与编辑模型“通义万相 Wan2.1-VACE”进行开源。这款模型以其卓越的全能性,在业界引起了广泛关注,被誉为目前功能最为完备的视频生成与编辑工具之一。
通义万相 Wan2.1-VACE 的核心亮点在于其多功能集成。它不仅可以根据文字描述自动生成视频,还能基于静态图像创造出动态视频内容。更令人称奇的是,该模型能够对已有视频进行重绘,提升画面质感,并允许用户对视频中的特定区域进行精细编辑。它还能够扩展视频背景,增加场景的层次感,并延长视频时长,使内容更加饱满。
为满足不同用户的需求,阿里巴巴此次开源了两个版本的模型:1.3B 和 14B。1.3B 版本经过优化,更适合消费级应用,使得普通用户也能轻松上手。而 14B 版本则拥有更为强大的性能,适合对计算资源要求较高的专业用户。
通义万相作为阿里巴巴通义系列 AI 绘画创作大模型的重要组成部分,其发展历程同样引人注目。该模型最初于 2023 年 7 月 7 日上线,主要用于辅助图片创作。随后,在 2024 年 9 月 19 日的阿里云栖大会上,通义万相视频生成大模型正式发布,标志着阿里巴巴正式进军视频生成领域。凭借强大的中文理解能力,该模型能够更好地响应中文指令,生成高质量的影视级视频。
在今年 1 月初,通义万相视频生成模型升级至 2.1 版,在多个方面取得了显著进步。新版本在处理复杂运动、还原真实物理规律、提升电影质感以及优化指令遵循方面均表现出色。2 月 25 日,阿里巴巴宣布全面开源万相 2.1 模型,这一举措进一步推动了该模型的应用与普及,为视频创作者提供了前所未有的便利。