科技突破！阿里云通义千问APP推出全新舞蹈体验功能-天脉网

【天脉网】1月4日消息，2024年迎来的第一个工作日，一项引人瞩目的科技突破正悄然兴起。近日，国内社交媒体和朋友圈上开始疯传一系列兵马俑、马斯克等人跳科目三和网红舞的视频，然而令人惊讶的是，这些视频均并非真人表演，而是由一款大模型生成的，成为最新的「跳舞」热潮。

这种大约10秒左右的舞蹈视频低门槛生成的方式，迅速引发了网友的广泛体验，掀起了一波斗舞潮。许多网友纷纷表示，AI治愈了他们的四肢不协调问题，科目三的风吹到了考古界，而再也不用担心跳科目三崴脚的尴尬场面。

据天脉网了解，这一创新功能是阿里云通义千问APP最新上线的免费服务。在该APP内，用户只需输入口令如“通义舞王”、“全民舞王”等，即可进入体验页面。按照提示上传照片后，十几分钟内即可生成栩栩如生的舞蹈视频，而生成的视频在保留原形象的面部表情、身材比例、服装以及背景等特征方面表现优异。目前，通义千问提供了科目三、蒙古舞、划桨步、鬼步舞等12种热门舞蹈模板供用户选择。

这一功能背后的核心算法被称为阿里通义实验室自研的视频生成模型Animate Anyone。早在11月底，该研究在海外社交媒体平台上爆火，相关视频播放量超过1亿，项目在Github上的Star数短短数日内就超过1万，成为大模型领域最受欢迎的算法之一。国外开发者和网友纷纷对该算法的效果表示赞赏，并呼吁提供更多“开放体验入口”。

除了令人惊艳的生成效果外，该算法的技术路线也受到广泛关注。视频生成作为大模型领域最热门的研究方向之一，谷歌、meta、Runway等国外科技公司也在积极布局。然而，长期以来，人物形象的视频生成一直面临诸多技术挑战，如人物形象一致性、动作流畅性可控性以及时序的无缝衔接。

据公开论文显示，Animate Anyone集成了多项创新技术，引入了ReferenceNet，用于捕捉和保留原图像信息，从而高度还原人物、表情及服装细节。此外，该算法采用了高效的Pose Guider姿态引导器，确保动作的精准可控。通过时序生成模块，有效保证了视频帧间的连贯流畅性。在相同数据集的测试下，Animate Anyone的性能表现显著优于同类模型。

通义千问于今年9月成为国内首批通过备案的大模型，其APP功能持续升级，目前提供文本对话、语音对话、翻译、PPT大纲助手、小红书文案、视频生成等几十项功能，实现了多领域的全面覆盖。