天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

AI新挑战:超级马力欧能否成为评测新基准?

2025-03-04来源:天脉网编辑:瑞雪

在AI技术日新月异的今天,任天堂的经典游戏依然成为了衡量AI智能的新标杆。最近,美国AI企业Anthropic在Twitch平台上,利用最新的AI模型Claude 3.7 Sonnet挑战了《宝可梦·红》,这一举动不仅展示了AI技术的最新进展,也引发了广泛的社会关注。

经过多次游戏测试,研究员们发现《宝可梦》系列游戏成为了检验Claude 3.7 Sonnet能力的一个极佳基准。在游戏中,Claude 3.7 Sonnet展现出了其“思考”能力,成功赢得了三个道馆的徽章,这一成就无疑证明了AI在游戏策略上的巨大进步。

然而,最新的研究显示,《超级马力欧兄弟》可能更适合作为测试AI工具的游戏。加州大学圣地亚哥分校的Hao AI Lab设计了一个与GamingAgent框架集成的《超级马力欧兄弟》版本,用于评估AI的性能。在这个框架中,AI通过Python代码生成输入指令,控制马力欧的行动,如躲避敌人和障碍物。

测试结果显示,Claude 3.7在《超级马力欧兄弟》中的表现最为出色,紧随其后的是Claude 3.5、Gemini 1.5 Pro和GPT-4o。与《宝可梦》的回合制战斗不同,《超级马力欧兄弟》要求AI在短时间内做出快速决策,这种对推理模型的挑战更为严峻,因为每一秒的决策都可能决定马力欧的生死。

其实,利用游戏测试AI技术并非新鲜事。早在2019年,OpenAI就通过OpenAI Five在Dota 2比赛中击败了一支专业玩家队伍,并在公开发布后击败了99.4%的在线选手。然而,尽管为游戏创建AI令人兴奋且易于商业化,但一些专家对此持谨慎态度。前Salesforce首席AI科学家Richard Socher认为,除了玩游戏外,这些AI并未真正为世界创造价值。

确实,与真实环境相比,游戏作为一个抽象、简单的世界存在局限性。如果不能很好地适应新环境,AI就很难在现实世界中解决问题。即便是胜率高达90%的OpenAI Five,也仅仅局限于Dota 2中的16个角色。随着GPT-4.5的发布,OpenAI的研究科学家也提出了AI评测的“评估危机”,表示在选择评估指标时感到困惑。

如今,AI领域的研究者正面临着如何评估AI“品味”的挑战。尽管GPT-4.5被誉为独特且富有人情味,但其评价标准依然模糊。不过,至少我们现在可以欣赏到AI在《超级马力欧兄弟》中的精彩表现,这无疑为AI技术的发展增添了新的乐趣和期待。