阿里HappyHorse 1.0开启灰度测试，实测生成视频能力有亮点也有不足-天脉财经

阿里ATH创新事业部近日宣布，其最新研发的视频生成与编辑模型HappyHorse 1.0（中文名：快乐小马）正式开启灰度测试。该模型已在阿里云百炼平台和HappyHorse官网开放注册，普通用户则可通过千问App进行体验。这一消息引发了AI视频生成领域的广泛关注。

在盲测平台Arena.ai的评估中，HappyHorse 1.0在文生视频、图生视频和视频编辑三个榜单上均位列第二，仅次于近期备受瞩目的字节Seedance 2.0。为验证其实际表现，相关团队进行了多维度测试，发现该模型在指令遵循和生成速度方面表现突出，但在画面物理准确性和音画同步等方面仍有改进空间。

用户只需输入简单的文字描述，HappyHorse 1.0即可生成3秒至15秒的视频，支持多镜头切换和连贯剧情。官网信息显示，该模型最高支持1080p分辨率，可同时生成4个视频。价格方面，生成720p和1080p视频的刊例价分别为每秒0.9元和1.6元，Pro套餐包月价格叠加限时折扣后为每秒0.44元和0.78元。

HappyHorse 1.0已被集成到阿里旗下多款产品中，包括阿里悟空、MuleRun和JVS Claw等Agent平台。千问App预告将推出“测一测”视频玩法，用户可测出自己在短剧宇宙中的本名角色，并通过该模型生成本人“出演”的短剧片段。

测试过程中，HappyHorse 1.0展现了多项优势：生成一段视频仅需2至5分钟，指令遵循能力强，能准确理解复杂提示词要求，包括镜头运动、画面构图和风格氛围等；图生视频功能可高度还原上传的参考元素，如人物、场景和道具等。然而，该模型在音画同步、长叙事物理准确性和文字渲染方面存在不足。例如，在乐器演奏场景中，手部动作与音频节奏存在错位；10秒以上的视频易出现物理错误，如物体无外力移动；画面中的文字常出现乱码或错误。

在文生视频测试中，HappyHorse 1.0成功完成了复杂动作与音画同步的案例。例如，生成一段街头音乐表演视频时，模型准确呈现了鼓手敲击、吉他手弹奏和观众互动的场景，但吉他演奏与音乐节奏存在不同步问题。在物理真实性测试中，模型还原了海浪拍打岩石、水花飞溅的效果，但近景画面中水滴滑落速度略慢于物理规律。

该模型还展现了处理超长提示词的能力。在一段长达800词的提示词测试中，模型准确呈现了画面中的人物、天气、环境和建筑等元素，但开头出现车门无故关闭的物理错误，最后一个镜头中主角形象发生变化，显示一致性有待提升。

在图生视频测试中，HappyHorse 1.0支持最多9张图片参考。测试中，模型成功生成了奥尔特曼喝咖啡的画面，人物相似度达8成，且样貌未随光线和背景变化而改变。在多人物参考测试中，模型初始生成结果未能体现争吵效果，且“马斯克”说中文，细化要求后生成了二人用英语争论的画面，但表情与参考图存在偏差。在多元素参考测试中，模型准确呈现了上传的所有人物和物体，但出现纸箱自动合上、门自动打开等物理错误。

业内人士认为，HappyHorse 1.0的3秒至15秒生成长度、较快生成速度和支持1080p分辨率是其亮点。在提示词明确的情况下，模型产出效果尚可，但生成结果的一致性和语音机械感仍需改进。当前视频生成模型的生成质量仍是普遍痛点，部分团队“抽卡率”高达50%至60%，生成时效性也有待提升。相比之下，价格是用户较易接受的维度。

参与测试的团队表示，HappyHorse 1.0在真实感和叙事能力上表现不错，尤其适合叙事性内容和纪录片风格题材。其焦段运用接近实拍，镜头运动自然，减轻了视频的“AI感”。