天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

马斯克“最聪明”AI Grok3遇难题,9.11与9.9比较竟“翻车”

2025-02-19来源:天脉网编辑:瑞雪

近日,科技巨头马斯克携手xAI团队,在一场备受瞩目的直播活动中,隆重推出了他们最新研发的AI模型——Grok3。这款模型在发布前就被马斯克誉为“地球上最聪明的AI”,他在个人社交平台上透露,自己整个周末都沉浸在与团队的紧张研发中,只为打磨出这款划时代的产品。

然而,就在Grok3发布后不久,有媒体曝光了关于其Beta版的测试结果,引发了业界的广泛关注。测试中,有人向Grok3提出了一个AI领域内的经典难题:“9.11与9.9哪个大?”令人遗憾的是,在没有任何额外修饰或标注的情况下,即便是号称目前最聪明的Grok3,也未能给出正确答案。这一结果不禁让人对其“最聪明”的称号产生了质疑。

相比之下,另一款AI模型DeepSeek在面对同样的问题时,则展现出了截然不同的表现。无论是否开启深度思考模式,DeepSeek都能准确回答:“9.9大于9.11。”这一结果无疑为DeepSeek增添了不少光彩。

DeepSeek测试结果截图

回顾历史,“9.11和9.9哪个大”这一看似简单的问题,实则早已成为AI领域内的经典难题。艾伦研究机构的成员林禹臣曾在社交媒体上分享过ChatGPT-4o在这一问题上的“尴尬”表现,认为13.11比13.8更大。这一事件再次证明,尽管AI在数学奥赛题方面越来越擅长,但在处理常识性问题时仍然显得力不从心。

而此次Grok3的“翻车”事件,也引发了业界对于AI模型能力的进一步思考。事实上,在此之前,Scale AI的提示工程师莱利·古德赛德就曾用类似的问题拷问过当时的主流大模型,包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet,结果这些模型都未能给出正确答案。这一事件无疑加剧了业界对于AI模型常识判断能力的担忧。

海外主流大模型答题情况

尽管遭遇了这样的尴尬,但马斯克对于Grok3的信心并未动摇。在发布会的背景板上,他明确表达了xAI公司的使命:“了解宇宙。”而在一周前的直播中,他还曾信心满满地表示,Grok3将在数学、科学与编程方面超越所有主流模型,并预测其未来将用于SpaceX的火星任务计算,甚至有望在三年内实现诺贝尔奖级别的突破。

马斯克在xAI直播现场

为了提升Grok3的能力,马斯克透露,团队在训练过程中使用了大量合成数据,并借助了由10万个英伟达H100 GPU驱动的Colossus超级计算机。这台超级计算机为Grok3的训练提供了2亿个GPU小时的计算资源,比之前的版本多了十多倍。xAI还推出了名为Deepsearch的智能搜索引擎,旨在进一步提升Grok3的应用能力。

食品加工新变革:数字孪生搭桥,大屏联动MES还原产线真实场景
在北京四度科技的解决方案中,数字孪生与MES的联动通过三层架构实现: 食品加工行业的数字化转型已进入深水区,数字孪生技术通过大屏联动MES数据,不仅为管理者提供了“上帝视角”,更在展会等场合展示了企业的技术…

2026-04-27

离开独角兽后创业,许华哲:家庭机器人是未来,智能争夺战已打响
我创业这事,跟我爸妈聊,他们肯定是说支持,但你要不创业也不错,因为在他们的视角里,在清华只做教书这一件事,对他们来说也足够好,甚至会是更好的选择。不是别人做了一个什么,我们要立刻有别人有的这个东西;别人做了…

2026-04-27

小米投资者日展新款具身机器人:延续CyberOne设计,手部精细操作表现亮眼
4月27日消息,小米在投资者日活动上展示了新款具身机器人,延续 2022 年 CyberOne铁大人形设计方案,机身采用暗灰色面料并印有小米标志,整体科技感较强。 从博主分享的视频来看,新款机器人手部动作流…

2026-04-27