微软世界与人类行动模型Muse登上Nature杂志,革新游戏体验
近期,微软在人工智能领域取得了重大突破,其研发的世界和人类行动模型Muse成功登上国际顶级学术期刊Nature。Muse是一个基于视频游戏生成的模型,其参数规模高达16亿,通过近7年的人类游戏数据进行训练,旨在理解游戏中的物理规则和3D环境,并据此生成玩家的动作和视觉效果。
Muse模型由微软研究员游戏智能团队、可教的AI体验(Tai X,Teachable AI Experiences)团队与Xbox Games Studios旗下的电子游戏制作公司Ninja Theory联合开发。该模型能够生成具有一致性、多样性和持久性的游戏视频效果。具体而言,其生成的两分钟视频效果与人类真实游戏效果相近,并能提供不同摄像机角度、角色和游戏工具的多样性效果。开发者还可以通过添加新元素,让模型自动合理地将这些元素融入画面中。
在模型训练方面,Muse使用了Xbox游戏Bleeding Edge的7张游戏地图中提取的约50万个匿名游戏会话数据,总数据量达到27.89TiB。这些数据涵盖了7年多的人类游戏时间,为模型提供了丰富的训练素材。通过训练,Muse能够准确捕捉游戏环境的3D结构、控制器动作的效果以及游戏的时间结构,从而生成连贯、一致且多样的游戏视频。
为了评估Muse模型的能力,研究人员进行了一系列多学科协作的实验。他们首先总结了27名从事游戏开发的创意人员的用户研究结果,确定了生成模型在创造性构思中可能重要的能力:一致性、多样性和持久性。实验结果显示,Muse在这些方面均表现出色。在一致性方面,模型能够生成长达两分钟的一致游戏序列;在多样性方面,模型能够产生大量不同的序列,反映不同的潜在结果;在持久性方面,模型能够在修改游戏序列时保留新引入的元素。
Muse模型还具备高度的可扩展性和灵活性。研究人员最初使用V100集群进行训练,并成功扩展到在多达100个GPU上进行训练,这为后续在H100上进行大规模训练铺平了道路。借助有效的资源分配和评估框架,研究人员能够进一步改进Muse实例,包括提高图像编码器的分辨率和扩大模型规模,从而使其能够处理所有7个Bleeding Edge地图的数据。
微软已经开源了Muse模型的权重和样本数据,并提供了一个可视化的交互界面WHAM Demonstrator供开发者体验。开发者可以在Azure AI Foundry上学习试验权重、示例数据和WHAM Demonstrator,进一步探索Muse模型的潜力。Xbox也在考虑基于Muse为用户构建简短的交互式AI游戏体验,并将在Copilot Labs上进行试用。
随着Muse模型的推出,微软为世界模型在游戏领域的应用开启了新的大门。这一模型不仅能够学习游戏世界的丰富结构,还能支持模型的创造性使用,可能会从根本上改变用户保存和体验经典游戏的方式,并使更多玩家接触到这些经典游戏。同时,微软通过与多学科人员的协作,找到了构建模型能力以满足创意人员需求的切入点,为模型在不同场景的应用提供了宝贵经验。