天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

可灵AI 2.0时代来袭:全新模型升级,定义人与AI交互新方式

2025-04-16来源:天脉网编辑:瑞雪

在中关村国际创新中心的舞台上,可灵AI于近日隆重推出了其“灵感成真”2.0模型发布会,正式向全球宣告其基座模型的全新升级,同时揭晓了可灵2.0视频生成模型与可图2.0图像生成模型的璀璨亮相。

自去年6月首次面世以来,可灵AI凭借其不懈的努力,已完成了超过20次的迭代升级,全球用户群体迅速膨胀,现已突破2200万大关。这一庞大的用户基础中,超过1.5万名开发者和企业客户遍布全球,他们将可灵的API广泛应用于各行各业,开启了AI创作的新篇章。

可灵AI始终致力于提升模型的基础质量和画质清晰度,并不断引入创新功能,旨在满足用户日益多样化的需求。快手高级副总裁、社区科学线负责人盖坤在发布会上强调,可灵AI的愿景是让每个人都能借助AI的力量,讲述精彩绝伦的故事,实现复杂创意的精准表达。

盖坤在发布会上发表演讲

4月15日,可灵AI大模型2.0版本与可图大模型2.0版本正式面向全球发布。可灵2.0模型在动态质量、语义响应、画面美学等多个维度上均保持了全球领先地位,而可图2.0模型则在指令遵循、电影质感及艺术风格表现等方面实现了显著提升。据盖坤介绍,这两款模型在团队内部的多项评测中均稳居行业榜首,特别是在文生视频领域,可灵2.0相较于谷歌Veo2和Sora等竞争对手,展现出了显著的优势。

作为全球首个用户可用的DiT视频生成模型,可灵AI自发布以来已累计生成了1.68亿个视频和3.44亿张图片素材。在短短10个月内,其月活用户数量增长了25倍,这一惊人的增长速度充分证明了可灵AI的市场潜力和用户认可度。

为了满足用户日益增长的多样化需求,可灵AI在2.0模型的迭代中正式发布了全新的交互理念——Multi-modal Visual Language(MVL)。这一理念允许用户结合图像参考、视频片段等多模态信息,将脑海中的复杂创意直接高效地传达给AI。盖坤指出,MVL由TXT(Pure Text,语义骨架)和MMW(Multi-modal-document as a Word,多模态描述子)组成,能够从基础方向和精细控制两个层面精准实现AI创作者的创意表达。

“灵感成真”可灵AI2.0发布会现场

基于MVL理念,可灵AI推出了多模态编辑功能,使用户能够更直观地通过图像等方式输入自己的想法,生成符合预期的创意视频。这一功能的引入,不仅丰富了用户的表达方式,也进一步提升了可灵AI的创作灵活性和实用性。

在发布会现场,快手副总裁、可灵AI负责人张迪发布了全新的可灵2.0大师版。这一版本在语义响应、动态质量、画面美学等方面实现了显著提升,为用户带来了全新的创作体验。张迪表示,可灵2.0大师版不仅是一次技术升级,更是一次全方位的体验跃升。

可灵2.0大师版全面升级了视频及图像创作的可控生成与编辑能力,上线了全新的多模态视频编辑功能。这一功能能够灵活理解用户意图,支持在视频基础上通过输入图片或文字对生成内容进行元素的增加、删减、替换等二次编辑和处理。

可灵AI超级创作者陈翔宇分享创作经验

在图像生成领域,快手的可图2.0同样处于行业领先水平。其强大的复杂语义理解能力、电影级的画面质感以及多条件的可控风格化生成等核心优势,使其在团队内部的多项评测中均保持了明显优势。可图2.0的文生图能力迎来了全面升级,包括指令遵循能力的提升、电影美学表现力的增强以及更多元的艺术风格支持。

可图2.0还上线了实用的图像可控编辑功能,如局部重绘和扩图等,支持图片的增加、修改和修复。同时,其全新的风格转绘功能允许用户通过上传图片和风格描述,一键切换图片的艺术风格,同时精准保留原图的语义内容。

随着AIGC技术的迅猛发展,可灵AI正在成为AI时代视频创作的新基础设施,并重构着广告营销、专业创作、影视、娱乐创意等多个行业。可灵AI已与包括小米、亚马逊云科技、阿里云等在内的数千家国内外企业客户建立了合作关系,共同探索AI创作的无限可能。