阿里ATH创新事业部近日宣布,其最新研发的视频生成与编辑模型HappyHorse 1.0(中文名:快乐小马)正式开启灰度测试。该模型已在阿里云百炼平台和HappyHorse官网开放注册,普通用户则可通过千问App进行体验。这一消息引发了AI视频生成领域的广泛关注。
在盲测平台Arena.ai的评估中,HappyHorse 1.0在文生视频、图生视频和视频编辑三个榜单上均位列第二,仅次于近期备受瞩目的字节Seedance 2.0。为验证其实际表现,相关团队进行了多维度测试,发现该模型在指令遵循和生成速度方面表现突出,但在画面物理准确性和音画同步等方面仍有改进空间。
用户只需输入简单的文字描述,HappyHorse 1.0即可生成3秒至15秒的视频,支持多镜头切换和连贯剧情。官网信息显示,该模型最高支持1080p分辨率,可同时生成4个视频。价格方面,生成720p和1080p视频的刊例价分别为每秒0.9元和1.6元,Pro套餐包月价格叠加限时折扣后为每秒0.44元和0.78元。
HappyHorse 1.0已被集成到阿里旗下多款产品中,包括阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告将推出“测一测”视频玩法,用户可测出自己在短剧宇宙中的本名角色,并通过该模型生成本人“出演”的短剧片段。
测试过程中,HappyHorse 1.0展现了多项优势:生成一段视频仅需2至5分钟,指令遵循能力强,能准确理解复杂提示词要求,包括镜头运动、画面构图和风格氛围等;图生视频功能可高度还原上传的参考元素,如人物、场景和道具等。然而,该模型在音画同步、长叙事物理准确性和文字渲染方面存在不足。例如,在乐器演奏场景中,手部动作与音频节奏存在错位;10秒以上的视频易出现物理错误,如物体无外力移动;画面中的文字常出现乱码或错误。
在文生视频测试中,HappyHorse 1.0成功完成了复杂动作与音画同步的案例。例如,生成一段街头音乐表演视频时,模型准确呈现了鼓手敲击、吉他手弹奏和观众互动的场景,但吉他演奏与音乐节奏存在不同步问题。在物理真实性测试中,模型还原了海浪拍打岩石、水花飞溅的效果,但近景画面中水滴滑落速度略慢于物理规律。
该模型还展现了处理超长提示词的能力。在一段长达800词的提示词测试中,模型准确呈现了画面中的人物、天气、环境和建筑等元素,但开头出现车门无故关闭的物理错误,最后一个镜头中主角形象发生变化,显示一致性有待提升。
在图生视频测试中,HappyHorse 1.0支持最多9张图片参考。测试中,模型成功生成了奥尔特曼喝咖啡的画面,人物相似度达8成,且样貌未随光线和背景变化而改变。在多人物参考测试中,模型初始生成结果未能体现争吵效果,且“马斯克”说中文,细化要求后生成了二人用英语争论的画面,但表情与参考图存在偏差。在多元素参考测试中,模型准确呈现了上传的所有人物和物体,但出现纸箱自动合上、门自动打开等物理错误。
业内人士认为,HappyHorse 1.0的3秒至15秒生成长度、较快生成速度和支持1080p分辨率是其亮点。在提示词明确的情况下,模型产出效果尚可,但生成结果的一致性和语音机械感仍需改进。当前视频生成模型的生成质量仍是普遍痛点,部分团队“抽卡率”高达50%至60%,生成时效性也有待提升。相比之下,价格是用户较易接受的维度。
参与测试的团队表示,HappyHorse 1.0在真实感和叙事能力上表现不错,尤其适合叙事性内容和纪录片风格题材。其焦段运用接近实拍,镜头运动自然,减轻了视频的“AI感”。


