AI版《超级马力欧兄弟》：Claude系列领先，推理模型为何掉队？-天脉网

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近公布了一项引人入胜的研究，该研究将AI技术引入经典游戏《超级马力欧兄弟》中，以评估不同AI模型的性能。

在这次实验中，AI模型们并非面对1985年的原版游戏，而是游戏的一个模拟器版本。通过Hao实验室自主研发的GamingAgent框架，AI得以控制游戏主角马力欧。GamingAgent不仅向AI提供诸如“避开障碍物和敌人”的基本指令，还传输游戏内的实时截图。AI则通过生成Python代码来操控马力欧的行动。

实验结果令人惊讶。在参与测试的AI模型中，Anthropic的Claude 3.7表现最为抢眼，紧随其后的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出令人满意的水平。值得注意的是，此次实验中，一些通常在基准测试中表现强劲的推理模型，如OpenAI的o1，并未能在游戏中展现出同样的优势。研究人员指出，这类模型在实时游戏中往往需要较长时间来做出决策，而《超级马力欧兄弟》中，时机把握至关重要。

游戏作为衡量AI性能的工具已有数十年历史。然而，一些专家对此持保留态度，认为游戏环境相对抽象和简单，可能无法准确反映AI在现实世界中的表现。游戏能为AI提供理论上无限的数据，这在现实场景中是无法实现的。

最近，一些游戏基准测试的结果也引发了业界的广泛讨论。OpenAI的研究科学家安德烈・卡帕西甚至在社交媒体上表示，他目前对如何评估AI的性能感到困惑，不知道这些模型到底有多好。

尽管存在这些争议，但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这项研究不仅展示了AI技术的最新进展，也引发了人们对AI性能评估方法的深入思考。

《拳皇》服务器状态全掌握！优化游戏体验的小技巧来啦
2025-03-04

名臣健康游戏新品日本市场表现符合预期，二次元赛道首战告捷

金融界3月4日消息，有投资者在互动平台向名臣健康提问：上线斩即获日本【免榜费第二名】驾驾驾在手高云集的日本二次元卷王赛道，新首年战告捷,这个成绩是否在公司的预期内。公司回答表示：如您所说，是的。公司游戏产品…

2025-03-04

博彦科技透露：部分互联网客户涉足游戏业务，游戏技术支持服务引关注

证券之星消息，博彦科技(002649)03月04日在投资者关系平台上答复投资者关心的问题。投资者提问：请问公司的游戏相关技术支持服务于哪些游戏企业？在其游戏服务技术领域有哪些优势？博彦科技回复：尊敬的投资…

2025-03-04

迅游科技微跌后市怎么走？游戏加速龙头面临哪些机遇与挑战

1、游戏加速领域绝对龙头,市占率达50%;受益于《绝地求生》火爆,公司海外加速需求迅速上升;2017年公司手游加速器收入4384万,实现了从零到一的突破,为王者荣耀内置网络加速器;18年2月,子公司速宝科技…

2025-03-04

网易股价走高，盘中涨2.42%报156.7元，多元业务助力业绩亮眼

3月4日，网易-S(09999)盘中上涨2.42%，截至14:36，报156.7元/股，成交6.56亿元。网易股份有限公司是一家主要从事互联网和游戏服务的供应商，专业研发并运营广受欢迎的手游和端游，并积极推…

2025-03-04

《GTA 5增强版》今晚8点解锁，PC版新增光线追踪等特性！
2025-03-04