天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

超级马里奥挑战AI,ChatGPT竟垫底,推理模型为何慢半拍?

2025-03-08来源:天脉网编辑:瑞雪

近日,加州大学圣地亚哥分校的Hao AI Lab进行了一项有趣的实验,他们将几款人工智能(AI)引入了经典游戏《超级马里奥》中,以测试这些AI的游戏水平。

在这场AI游戏大赛中,表现最为抢眼的是美国人工智能初创公司Anthropic发布的Claude 3.7版本,紧随其后的是其稍早前的版本Claude 3.5。相比之下,谷歌的Gemini 1.5 Pro和Open AI的ChatGPT 4.0则显得力不从心,表现平平。

实验团队特别为AI们设计了一个名为GamingAgent的系统,该系统通过向AI发出基本指令,如“如果附近有障碍物或敌人,请向左移动或跳跃以躲避”,来引导AI进行游戏。AI则以Python代码的形式生成输入,操控马里奥进行游戏。

令人惊讶的是,像ChatGPT这样的以推理为基础的模型,尽管在大多数基准测试中表现出色,但在这次游戏中却表现不佳。这些模型通常通过逐步“思考”问题来寻找解决方案,但在《超级马里奥》这样的快节奏游戏中,这一特点反而成为了它们的劣势。

研究人员指出,推理模型在游戏中的困难主要在于决策速度。它们需要一段时间(通常是几秒钟)来决定行动,但在《超级马里奥兄弟》这样的游戏中,时间至关重要,一秒之差可能就决定了马里奥是安全完成跳跃还是坠落身亡。

长期以来,游戏一直被视为测试AI性能的一个重要平台。然而,一些专家对此持怀疑态度,他们认为将AI的游戏技能与技术进步直接联系起来可能并不明智。