马斯克“最聪明”AI Grok3遇难题，9.11与9.9比较竟“翻车”-天脉财经

近日，科技巨头马斯克携手xAI团队，在一场备受瞩目的直播活动中，隆重推出了他们最新研发的AI模型——Grok3。这款模型在发布前就被马斯克誉为“地球上最聪明的AI”，他在个人社交平台上透露，自己整个周末都沉浸在与团队的紧张研发中，只为打磨出这款划时代的产品。

然而，就在Grok3发布后不久，有媒体曝光了关于其Beta版的测试结果，引发了业界的广泛关注。测试中，有人向Grok3提出了一个AI领域内的经典难题：“9.11与9.9哪个大？”令人遗憾的是，在没有任何额外修饰或标注的情况下，即便是号称目前最聪明的Grok3，也未能给出正确答案。这一结果不禁让人对其“最聪明”的称号产生了质疑。

相比之下，另一款AI模型DeepSeek在面对同样的问题时，则展现出了截然不同的表现。无论是否开启深度思考模式，DeepSeek都能准确回答：“9.9大于9.11。”这一结果无疑为DeepSeek增添了不少光彩。

DeepSeek测试结果截图

回顾历史，“9.11和9.9哪个大”这一看似简单的问题，实则早已成为AI领域内的经典难题。艾伦研究机构的成员林禹臣曾在社交媒体上分享过ChatGPT-4o在这一问题上的“尴尬”表现，认为13.11比13.8更大。这一事件再次证明，尽管AI在数学奥赛题方面越来越擅长，但在处理常识性问题时仍然显得力不从心。

而此次Grok3的“翻车”事件，也引发了业界对于AI模型能力的进一步思考。事实上，在此之前，Scale AI的提示工程师莱利·古德赛德就曾用类似的问题拷问过当时的主流大模型，包括ChatGPT-4o、谷歌Gemini Advanced以及Claude 3.5 Sonnet，结果这些模型都未能给出正确答案。这一事件无疑加剧了业界对于AI模型常识判断能力的担忧。

海外主流大模型答题情况

尽管遭遇了这样的尴尬，但马斯克对于Grok3的信心并未动摇。在发布会的背景板上，他明确表达了xAI公司的使命：“了解宇宙。”而在一周前的直播中，他还曾信心满满地表示，Grok3将在数学、科学与编程方面超越所有主流模型，并预测其未来将用于SpaceX的火星任务计算，甚至有望在三年内实现诺贝尔奖级别的突破。

马斯克在xAI直播现场

为了提升Grok3的能力，马斯克透露，团队在训练过程中使用了大量合成数据，并借助了由10万个英伟达H100 GPU驱动的Colossus超级计算机。这台超级计算机为Grok3的训练提供了2亿个GPU小时的计算资源，比之前的版本多了十多倍。xAI还推出了名为Deepsearch的智能搜索引擎，旨在进一步提升Grok3的应用能力。