通义Wan2.1视频模型实测：马斯克毒液变身，经典梗图也能“动”起来！-天脉网

阿里通义万相Wan2.1再升级，开源首尾帧视频模型引发热议

在科技日新月异的今天，人工智能领域又迎来了一次重大突破。阿里通义万相Wan2.1最新推出的首尾帧视频模型，在GitHub上迅速收获了上万颗星标，成为业界关注的焦点。

这款模型的神奇之处在于，用户只需提供开始（首帧）和结束（尾帧）两张图片，它便能自动生成一段流畅、高质量的5秒720p视频。更令人惊叹的是，模型还能根据前后视角的不同，自动调整镜头角度，实现从地面视角到高空俯拍的平滑过渡，同时确保人物光影的准确无误。

据了解，这款首尾帧视频模型是基于Wan2.1文生视频14B大模型开发而成，旨在为创作者们提供一种更高效、更灵活的视频制作方式。阿里官方宣称，这是业界首个百亿参数规模的开源首尾帧视频模型，标志着人工智能在视频生成领域迈出了重要一步。

为了亲身体验这款模型的能力，不少用户纷纷上手实测。从反馈来看，Wan2.1首尾帧视频模型在主体一致性、前后连贯性等方面表现出色。无论是改造经典梗图，还是挑战火爆一时的玩法，它都能轻松应对，生成令人满意的视频作品。

例如，在测试过程中，用户尝试用Wan2.1生成了一段“文艺复兴”表情包的视频。尽管故事合理性无法深究，但整个转场过程非常流畅，人物的一致性也保持得相当好。即使是头发、长相、服装等易出错的细节，模型也处理得恰到好处。

用户还挑战了更高难度的任务，让两张完全不同的表情包进行“时空跨越”。虽然生成的视频略带“PPT转场”效果，但整体来说已经相当不错，展现出了模型强大的生成能力。

除了整活儿，用户还从时序连贯性、创意合理性、内容一致性以及技术实现难度等维度对模型进行了全方位考察。结果显示，无论是写实风格的花朵生长过程，还是创意十足的毒液变身特效，Wan2.1都能轻松驾驭，生成令人惊艳的视频作品。

当然，作为一款前沿的人工智能模型，Wan2.1首尾帧视频模型的技术原理和配置也备受关注。据阿里官方发布的技术报告透露，该模型在基础架构模型上引入了额外的条件控制分支，通过拼接首帧、尾帧和若干零填充的中间帧，构成控制视频序列。该序列进一步与噪声及掩码进行拼接，最终作为扩散变换模型的输入。

为实现画面稳定性控制，模型还提取了首帧和尾帧的CLIP语义特征，并通过交叉注意力机制将其注入到扩散变换模型的生成过程中。凭借这一独特的模型架构，Wan2.1最终实现了流畅且准确的首尾帧变换。

在配置方面，用户可以根据自己的需求选择合适的参数和分辨率。以81帧960*960分辨率的视频为例，设置不同参数会影响显存需求和推理速度。因此，用户在实际应用中需要根据自己的硬件条件和需求进行权衡。

总的来说，阿里通义万相Wan2.1首尾帧视频模型的推出，无疑为人工智能在视频生成领域的发展注入了新的活力。随着技术的不断进步和应用场景的不断拓展，我们有理由相信，未来将有更多令人惊艳的人工智能作品涌现出来。