腾讯大模型文生视频功能上线，能否在竞争中后来居上？-天脉网

腾讯混元大模型近日正式推出了文生视频功能，这一功能早在11月底就已被“剧透”，并于12月3日正式上线。该功能现已集成于腾讯元宝App中，用户可以在AI应用板块的“AI视频”部分申请试用。对于企业客户，则可以通过腾讯云接入服务，同时API（应用程序编程接口）也已开放内测申请。

自OpenAI发布Sora以来，视频生成式大模型在国内外备受瞩目。在国内，快手和字节跳动在这一领域正面交锋，阿里云、MiniMax、美图等公司也蓄势待发。相比之下，腾讯混元的节奏并不算快，但它依然凭借强大的技术实力，成功推出了自己的文生视频功能。

使用腾讯混元的文生视频功能非常简单，用户只需在提示框中输入一段描述，即可生成一段视频。这一功能与市场上类似的产品并无太大差异，但腾讯混元为用户提供了转场视频、多动作视频、超写实视频三种灵感提示，进一步丰富了用户的创作选择。

在实际体验中，用户可以选择写实、动画、电影、黑白、赛博朋克五种视频风格，以及五种不同的比例。高级指令部分的选择更为丰富，包括景别、光线、镜头运动等。其中，景别包括特写、近景等五种，镜头运动则包括固定镜头、手持摄影、拉近镜头等14种。这些选项为用户提供了极大的创作自由度。

根据腾讯提供的评测报告，腾讯混元视频生成模型与国内两个同类模型在持续时间、文本对齐、运动质量和视觉质量等方面进行了比较。结果显示，腾讯混元在文本对齐和运动质量方面表现优异，而在视觉质量方面则与GENN-3 alpha（Web）持平。尽管持续时间略短一秒，但腾讯混元凭借其在其他方面的优势，依然展现出了强大的竞争力。

腾讯混元多模态生成技术负责人凯撒介绍，混元基于与Sora类似的DiT架构，并在架构设计上进行了升级。这一升级使得混元视频生成模型能够更好地应对多个主体描绘，实现更细致的指令和画面呈现。同时，采用统一的全注意力机制，使得每帧视频的衔接更流畅，实现了主体一致的多视角镜头切换。通过图像视频混合VAE（3D变分编码器），模型在细节表现上有了显著提升，特别是在小人脸、高速镜头等场景。

腾讯在当天还宣布开源该视频生成大模型。该模型已在Hugging Face平台及Github上发布，包含模型权重、推理代码、模型算法等完整模型。企业与个人开发者可免费使用和开发生态插件。这一举措无疑将推动视频生成技术的发展和应用。

对于为何选择在此时上线文生视频功能，凯撒表示：“一个月前我们训练完了，现在上线水到渠成。”然而，业内人士更关心的是，该功能与同行相差的几个月时间差是否会对腾讯造成压力。对此，凯撒表示：“视频生成的成熟度还没有到外界想象得那么高，现阶段还是要自己做技术打磨。”

分析师李锦清在与记者交流时指出：“文生视频的实现难度更高，但商业空间更大。短期内竞争门槛不会马上建立，行业和企业有共性或特性的问题要解决，比如数据就是个槛。”这一观点也反映了当前视频生成技术面临的挑战和机遇。