在科技创新的浪潮中,可灵AI再次引领潮流,近日正式推出了其2.0版本的两大核心模型——可灵2.0视频生成模型与可图2.0图像生成模型,为数字创意领域带来了颠覆性的变革。
此次发布的核心亮点在于,可灵2.0引入了一种前所未有的多模态视频编辑技术,彻底打破了以往仅依赖文字生成视频的局限性。据可灵AI的负责人、快手副总裁张迪透露,当前市场上约85%的视频创作依赖于“图生视频”的方式,即通过文字生成图片,再由图片合成视频。而可灵2.0的多模态编辑功能,则允许用户将文字、图片、视频等多种格式的内容融合,共同作用于视频的创作过程中。
在发布会上,这一创新功能得到了生动的演示。用户只需通过简单的操作,就能将脑海中的复杂想象,以图像、视频片段等多种形式传达给AI,实现更加精准和生动的视频创作。这种全新的交互模式,被业内专家称为MVL(Multi-modal Visual Language,多模态视觉语言),它极大地拓宽了人与AI之间的沟通桥梁。
快手高级副总裁、社区科学线负责人盖坤强调,仅凭文字描述往往难以充分表达用户的创意和想象。例如,在创作一个视频时,用户可能希望主人公的面容、服装、背景以及动作都能与心中的设想高度契合。通过可灵2.0的多模态编辑功能,用户可以将相关的参考图片和视频直接融入描述中,从而生成更加贴近想象的视频作品。这一功能还支持对视频内容进行局部的增、删、改,使得创作过程更加灵活和便捷。
与此同时,可图2.0图像生成模型也迎来了全面升级。其指令遵循能力和电影美学表现力均得到了显著提升,能够更准确地捕捉和表达用户的创意需求。在艺术风格方面,可图2.0目前支持超过60种风格化的效果转绘,为用户提供了更加多元化的创作选择。
可灵2.0版本在发布之日即正式上线,全球用户均可立即体验这一创新技术带来的变革。然而,尽管AI在辅助创意表达方面展现出了巨大的潜力,但当前行业的发展现状仍面临诸多挑战。盖坤指出,AI生成内容的稳定性和用户复杂创意的精确传达是当前亟待解决的问题。