超级马里奥挑战AI，ChatGPT竟垫底，推理模型为何慢半拍？-天脉网

近日，加州大学圣地亚哥分校的Hao AI Lab进行了一项有趣的实验，他们将几款人工智能（AI）引入了经典游戏《超级马里奥》中，以测试这些AI的游戏水平。

在这场AI游戏大赛中，表现最为抢眼的是美国人工智能初创公司Anthropic发布的Claude 3.7版本，紧随其后的是其稍早前的版本Claude 3.5。相比之下，谷歌的Gemini 1.5 Pro和Open AI的ChatGPT 4.0则显得力不从心，表现平平。

实验团队特别为AI们设计了一个名为GamingAgent的系统，该系统通过向AI发出基本指令，如“如果附近有障碍物或敌人，请向左移动或跳跃以躲避”，来引导AI进行游戏。AI则以Python代码的形式生成输入，操控马里奥进行游戏。

令人惊讶的是，像ChatGPT这样的以推理为基础的模型，尽管在大多数基准测试中表现出色，但在这次游戏中却表现不佳。这些模型通常通过逐步“思考”问题来寻找解决方案，但在《超级马里奥》这样的快节奏游戏中，这一特点反而成为了它们的劣势。

研究人员指出，推理模型在游戏中的困难主要在于决策速度。它们需要一段时间（通常是几秒钟）来决定行动，但在《超级马里奥兄弟》这样的游戏中，时间至关重要，一秒之差可能就决定了马里奥是安全完成跳跃还是坠落身亡。

长期以来，游戏一直被视为测试AI性能的一个重要平台。然而，一些专家对此持怀疑态度，他们认为将AI的游戏技能与技术进步直接联系起来可能并不明智。