马斯克Grok 3评测出炉：性能领先DeepSeek，能否称“最聪明”尚待观察-天脉网

在科技界引发轰动的时刻终于到来，特斯拉创始人埃隆·马斯克携其人工智能实验室xAI的核心团队，通过一场视频直播，向全球揭晓了他们的最新力作——Grok 3，自诩为“地球上最聪慧的人工智能”。

这场发布会背后，是xAI动用了一个由20万块先进GPU构建的超大规模计算中心，其规模之庞大，令人叹为观止。尽管外界对Grok 3的完整性尚存疑虑，但其在“跑分”测试中展现的实力，已足以震撼整个业界，特别是科技爱好者群体。发布会后，市场上热炒数周的DeepSeek概念股遭遇重创，仿佛预示着新王者的诞生。

在思维能力的测试中，Grok 3展现出了其先进性。Andrej提到，Grok 3能够成功创建一个类似《卡坦岛》的六边形网格棋盘游戏网页，这是许多顶级模型都难以完成的任务。然而，在面对一个复杂的“表情符号之谜”时，Grok 3却未能解开隐藏的信息，这一挑战连DeepSeek-R1都只能部分解码。

在解决井字棋棋盘问题上，Grok 3表现出了清晰的思路，但在提高难度后要求生成“棘手”棋盘时却失败了。同时，在知识问答环节，Grok 3在没有搜索的情况下，成功估算了训练GPT-2所需的FLOPs数量，这一表现甚至超越了OpenAI自家的顶级思维模型o1-pro。

Andrej还尝试了一些有趣的LLM陷阱查询，以测试Grok 3的应对能力。结果显示，Grok 3在解决某些简单谜题时表现出色，但在幽默感和复杂伦理问题上仍有待提升。例如，在生成笑话时，Grok 3的表现并不尽如人意，生成的笑话往往缺乏新意和幽默感。同时，在面对复杂的伦理问题时，Grok 3也显得过于谨慎，甚至拒绝回答某些问题。

尽管存在这些不足，但Andrej对Grok 3的总体印象仍然积极。他认为，考虑到xAI团队从零开始仅用一年时间就达到了如此先进的水平，这一成就无疑是前所未有的。同时，他也提醒说，这些模型具有随机性，每次给出的答案可能会有所不同，因此还需要等待更多评估结果来验证Grok 3的真正实力。

最后，Andrej对xAI团队表示了祝贺，并期待将Grok 3纳入他的“LLM委员会”，听取它对未来的见解。这场科技盛宴不仅展示了xAI的强大实力，也为人工智能领域带来了新的希望和期待。