Grok 3实测：速度超群数学强，逻辑思考能否超越DeepSeek R1仍是问号-天脉财经

人工智能领域近日迎来重大突破，初创公司xAI发布的Grok 3大模型引发了广泛关注。这款模型由科技巨头埃隆·马斯克背书，被其誉为“地球上最聪明的人工智能”。

据官方公布的数据，Grok 3在多项基准测试中表现卓越，超越了GPT-4o、Gemini-2 Pro、DeepSeek V3和Claude 3.5等多个知名大模型。特别是在AIME（数学能力评估）和GPQA（博士级别科学问题评估）测试中，Grok 3的成绩尤为亮眼。在大模型竞技场Chatbot Arena（LMSYS）的测试中，Grok 3也取得了第一名，得分高达140分。

然而，尽管官方数据耀眼，部分用户在实际体验后却对Grok 3的能力表示质疑。他们认为，这款模型的表现并未达到马斯克所宣称的高度。OpenAI应用研究主管Boris Power更是公开表示失望，指责Grok团队在模型评估中存在作弊嫌疑，并指出o3-mini在各项评估中均优于Grok 3。

为了验证Grok 3的真实水平，《每日经济记者》进行了一系列测试。测试结果显示，Grok 3确实具备世界顶级模型的能力，但在与其他模型的对比中并未拉开太大差距。值得注意的是，Grok 3的响应速度极快，这是其显著优于其他模型的一点。

在基础问题测试中，如“9.9和9.11谁大”，Grok 3轻松给出了正确答案。然而，在逻辑思考和文字理解能力方面，Grok 3的表现却略显不足。例如，在面对一个包含逻辑陷阱的问题时，Grok 3虽然答对了问题，但并未完全展现出其逻辑推理能力的优势。相比之下，DeepSeek R1模型在此类问题上的表现更为出色。

在数学能力测试中，Grok 3展现出了其强大的实力。在一道复杂的台球问题中，Grok 3迅速给出了正确答案，且用时远少于其他模型。然而，在解决更高难度的群论问题时，尽管Grok 3答对了最终数量，但在具体群的识别上却出现了一个错误。这表明，尽管Grok 3在数学方面表现出色，但并未与其他同等级模型拉开显著差距。

在编程能力方面，Grok 3也展现出了不俗的实力。Kcores联合创始人karminski-牙医的测评结果显示，Grok 3在模拟火星发射计划的代码时表现优异，虽然动画效果略有不足，但轨道需求计算得非常准确。最终，Grok 3在编程能力测试中险胜OpenAI的o1模型。

综合各项测试结果来看，Grok 3确实是一款世界顶尖的AI模型，其强大的能力和极快的响应速度令人印象深刻。然而，尽管马斯克对其赞誉有加，但实测结果并未完全达到其宣称的高度。因此，关于Grok 3是否真的是“地球上最聪明的人工智能”，或许还需要更多的验证和探讨。