加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近公布了一项引人入胜的研究,该研究将AI技术引入经典游戏《超级马力欧兄弟》中,以评估不同AI模型的性能。
在这次实验中,AI模型们并非面对1985年的原版游戏,而是游戏的一个模拟器版本。通过Hao实验室自主研发的GamingAgent框架,AI得以控制游戏主角马力欧。GamingAgent不仅向AI提供诸如“避开障碍物和敌人”的基本指令,还传输游戏内的实时截图。AI则通过生成Python代码来操控马力欧的行动。
实验结果令人惊讶。在参与测试的AI模型中,Anthropic的Claude 3.7表现最为抢眼,紧随其后的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出令人满意的水平。值得注意的是,此次实验中,一些通常在基准测试中表现强劲的推理模型,如OpenAI的o1,并未能在游戏中展现出同样的优势。研究人员指出,这类模型在实时游戏中往往需要较长时间来做出决策,而《超级马力欧兄弟》中,时机把握至关重要。
游戏作为衡量AI性能的工具已有数十年历史。然而,一些专家对此持保留态度,认为游戏环境相对抽象和简单,可能无法准确反映AI在现实世界中的表现。游戏能为AI提供理论上无限的数据,这在现实场景中是无法实现的。
最近,一些游戏基准测试的结果也引发了业界的广泛讨论。OpenAI的研究科学家安德烈・卡帕西甚至在社交媒体上表示,他目前对如何评估AI的性能感到困惑,不知道这些模型到底有多好。
尽管存在这些争议,但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这项研究不仅展示了AI技术的最新进展,也引发了人们对AI性能评估方法的深入思考。