人工智能领域近日迎来重大突破,初创公司xAI发布的Grok 3大模型引发了广泛关注。这款模型由科技巨头埃隆·马斯克背书,被其誉为“地球上最聪明的人工智能”。
据官方公布的数据,Grok 3在多项基准测试中表现卓越,超越了GPT-4o、Gemini-2 Pro、DeepSeek V3和Claude 3.5等多个知名大模型。特别是在AIME(数学能力评估)和GPQA(博士级别科学问题评估)测试中,Grok 3的成绩尤为亮眼。在大模型竞技场Chatbot Arena(LMSYS)的测试中,Grok 3也取得了第一名,得分高达140分。
然而,尽管官方数据耀眼,部分用户在实际体验后却对Grok 3的能力表示质疑。他们认为,这款模型的表现并未达到马斯克所宣称的高度。OpenAI应用研究主管Boris Power更是公开表示失望,指责Grok团队在模型评估中存在作弊嫌疑,并指出o3-mini在各项评估中均优于Grok 3。
为了验证Grok 3的真实水平,《每日经济记者》进行了一系列测试。测试结果显示,Grok 3确实具备世界顶级模型的能力,但在与其他模型的对比中并未拉开太大差距。值得注意的是,Grok 3的响应速度极快,这是其显著优于其他模型的一点。
在基础问题测试中,如“9.9和9.11谁大”,Grok 3轻松给出了正确答案。然而,在逻辑思考和文字理解能力方面,Grok 3的表现却略显不足。例如,在面对一个包含逻辑陷阱的问题时,Grok 3虽然答对了问题,但并未完全展现出其逻辑推理能力的优势。相比之下,DeepSeek R1模型在此类问题上的表现更为出色。
在数学能力测试中,Grok 3展现出了其强大的实力。在一道复杂的台球问题中,Grok 3迅速给出了正确答案,且用时远少于其他模型。然而,在解决更高难度的群论问题时,尽管Grok 3答对了最终数量,但在具体群的识别上却出现了一个错误。这表明,尽管Grok 3在数学方面表现出色,但并未与其他同等级模型拉开显著差距。
在编程能力方面,Grok 3也展现出了不俗的实力。Kcores联合创始人karminski-牙医的测评结果显示,Grok 3在模拟火星发射计划的代码时表现优异,虽然动画效果略有不足,但轨道需求计算得非常准确。最终,Grok 3在编程能力测试中险胜OpenAI的o1模型。
综合各项测试结果来看,Grok 3确实是一款世界顶尖的AI模型,其强大的能力和极快的响应速度令人印象深刻。然而,尽管马斯克对其赞誉有加,但实测结果并未完全达到其宣称的高度。因此,关于Grok 3是否真的是“地球上最聪明的人工智能”,或许还需要更多的验证和探讨。