天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

AI版《超级马力欧兄弟》:Claude系列领先,推理模型为何掉队?

2025-03-04来源:天脉网编辑:瑞雪

加利福尼亚大学圣地亚哥分校的Hao人工智能实验室最近公布了一项引人入胜的研究,该研究将AI技术引入经典游戏《超级马力欧兄弟》中,以评估不同AI模型的性能。

在这次实验中,AI模型们并非面对1985年的原版游戏,而是游戏的一个模拟器版本。通过Hao实验室自主研发的GamingAgent框架,AI得以控制游戏主角马力欧。GamingAgent不仅向AI提供诸如“避开障碍物和敌人”的基本指令,还传输游戏内的实时截图。AI则通过生成Python代码来操控马力欧的行动。

实验结果令人惊讶。在参与测试的AI模型中,Anthropic的Claude 3.7表现最为抢眼,紧随其后的是Claude 3.5。而谷歌的Gemini 1.5 Pro和OpenAI的GPT-4o则未能展现出令人满意的水平。值得注意的是,此次实验中,一些通常在基准测试中表现强劲的推理模型,如OpenAI的o1,并未能在游戏中展现出同样的优势。研究人员指出,这类模型在实时游戏中往往需要较长时间来做出决策,而《超级马力欧兄弟》中,时机把握至关重要。

游戏作为衡量AI性能的工具已有数十年历史。然而,一些专家对此持保留态度,认为游戏环境相对抽象和简单,可能无法准确反映AI在现实世界中的表现。游戏能为AI提供理论上无限的数据,这在现实场景中是无法实现的。

最近,一些游戏基准测试的结果也引发了业界的广泛讨论。OpenAI的研究科学家安德烈・卡帕西甚至在社交媒体上表示,他目前对如何评估AI的性能感到困惑,不知道这些模型到底有多好。

尽管存在这些争议,但观看AI玩《超级马力欧兄弟》仍然是一种有趣的体验。这项研究不仅展示了AI技术的最新进展,也引发了人们对AI性能评估方法的深入思考。

名臣健康游戏新品日本市场表现符合预期,二次元赛道首战告捷
金融界3月4日消息,有投资者在互动平台向名臣健康提问:上线斩即获日本【免榜费第二名】驾驾驾在手高云集的日本二次元卷王赛道,新首年战告捷,这个成绩是否在公司的预期内。 公司回答表示:如您所说,是的。公司游戏产品…

2025-03-04

博彦科技透露:部分互联网客户涉足游戏业务,游戏技术支持服务引关注
证券之星消息,博彦科技(002649)03月04日在投资者关系平台上答复投资者关心的问题。投资者提问:请问公司的游戏相关技术支持服务于哪些游戏企业?在其游戏服务技术领域有哪些优势? 博彦科技回复:尊敬的投资…

2025-03-04

迅游科技微跌后市怎么走?游戏加速龙头面临哪些机遇与挑战
1、游戏加速领域绝对龙头,市占率达50%;受益于《绝地求生》火爆,公司海外加速需求迅速上升;2017年公司手游加速器收入4384万,实现了从零到一的突破,为王者荣耀内置网络加速器;18年2月,子公司速宝科技…

2025-03-04

网易股价走高,盘中涨2.42%报156.7元,多元业务助力业绩亮眼
3月4日,网易-S(09999)盘中上涨2.42%,截至14:36,报156.7元/股,成交6.56亿元。 网易股份有限公司是一家主要从事互联网和游戏服务的供应商,专业研发并运营广受欢迎的手游和端游,并积极推…

2025-03-04