百度Hallo2视觉生成模型来袭，数字人等领域将迎来新变革？-天脉网

近日，科技界迎来了一项重大突破，百度携手复旦大学共同发布了Hallo2——一款能够生成长达数小时、分辨率高达4K的人物动画的视觉模型。这款创新技术的问世，迅速引起了全球开发者及科技爱好者的广泛关注。

Hallo2在GitHub平台正式开源，为全球开发者提供了免费使用和研究的机会。这一举措不仅彰显了百度与复旦在科技创新上的开放态度，更为视频生成技术的广泛应用和发展铺设了坚实的基石。项目地址：https://fudan-generative-vision.github.io/hallo2/

自Hallo2发布以来，其在海外科技界引发了强烈反响。许多人对视频生成的长度和分辨率表示惊叹，更有不少从Hallo第一代模型就开始关注的老用户，对Hallo2的升级和进步赞不绝口。开源模型和代码的公开，更是赢得了广泛认可与好评。

Hallo2之所以备受瞩目，关键在于其解决了人像视频生成领域的一大难题：如何在保证视频质量的同时，大幅提升生成时长。过去，制作高质量的人物动画往往需要耗费大量时间和人力成本。而Hallo2的出现，则有望彻底改变这一现状，为数字人、电影制作、虚拟助手、游戏开发等多个领域带来颠覆性的变革。

作为一款音频驱动的人像动画生成模型，Hallo2能够实现长达一小时、4K分辨率的视频生成。通过创新的图像块丢弃、噪声增强和时间对齐等技术，Hallo2成功解决了长时视频生成中常见的外观漂移和视觉不一致问题。同时，它还支持灵活的语音与文本控制，生成的动画质量达到了业内领先水平。

Hallo2在继承前代Hallo模型创新框架的基础上，采用了基于扩散的生成模型和分层音频驱动视觉合成模块。这一改进不仅提高了音频与视觉输出之间的同步精度，还使得各部分的协同作用更加高效，从而增强了生成动画的质量和真实感。Hallo2在图像和视频质量方面取得了显著提升，同时大幅增加了动作的丰富性和多样性。

行业专家指出，Hallo2的问世标志着音频驱动的肖像图像动画技术迈入了新的发展阶段。百度凭借其在视觉技术领域的长期积累，正瞄准行业痛点进行针对性研究和场景落地。这不仅为开发者提供了强大的工具，更为未来各种应用场景下的动画形象创作带来了无限可能。