AI新挑战：超级马力欧能否成为评测新基准？-天脉网

在AI技术日新月异的今天，任天堂的经典游戏依然成为了衡量AI智能的新标杆。最近，美国AI企业Anthropic在Twitch平台上，利用最新的AI模型Claude 3.7 Sonnet挑战了《宝可梦·红》，这一举动不仅展示了AI技术的最新进展，也引发了广泛的社会关注。

经过多次游戏测试，研究员们发现《宝可梦》系列游戏成为了检验Claude 3.7 Sonnet能力的一个极佳基准。在游戏中，Claude 3.7 Sonnet展现出了其“思考”能力，成功赢得了三个道馆的徽章，这一成就无疑证明了AI在游戏策略上的巨大进步。

然而，最新的研究显示，《超级马力欧兄弟》可能更适合作为测试AI工具的游戏。加州大学圣地亚哥分校的Hao AI Lab设计了一个与GamingAgent框架集成的《超级马力欧兄弟》版本，用于评估AI的性能。在这个框架中，AI通过Python代码生成输入指令，控制马力欧的行动，如躲避敌人和障碍物。

测试结果显示，Claude 3.7在《超级马力欧兄弟》中的表现最为出色，紧随其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。与《宝可梦》的回合制战斗不同，《超级马力欧兄弟》要求AI在短时间内做出快速决策，这种对推理模型的挑战更为严峻，因为每一秒的决策都可能决定马力欧的生死。

其实，利用游戏测试AI技术并非新鲜事。早在2019年，OpenAI就通过OpenAI Five在Dota 2比赛中击败了一支专业玩家队伍，并在公开发布后击败了99.4%的在线选手。然而，尽管为游戏创建AI令人兴奋且易于商业化，但一些专家对此持谨慎态度。前Salesforce首席AI科学家Richard Socher认为，除了玩游戏外，这些AI并未真正为世界创造价值。

确实，与真实环境相比，游戏作为一个抽象、简单的世界存在局限性。如果不能很好地适应新环境，AI就很难在现实世界中解决问题。即便是胜率高达90%的OpenAI Five，也仅仅局限于Dota 2中的16个角色。随着GPT-4.5的发布，OpenAI的研究科学家也提出了AI评测的“评估危机”，表示在选择评估指标时感到困惑。

如今，AI领域的研究者正面临着如何评估AI“品味”的挑战。尽管GPT-4.5被誉为独特且富有人情味，但其评价标准依然模糊。不过，至少我们现在可以欣赏到AI在《超级马力欧兄弟》中的精彩表现，这无疑为AI技术的发展增添了新的乐趣和期待。