马斯克Grok 4跑分曝光，人类最后考试斩获45%高分，能否改写LLM格局？-天脉财经

近期，AI界迎来了一则震撼人心的消息：Grok 4在“人类最后考试”（HLE）中取得了高达45%的惊人得分，这一成绩远超当前顶尖模型如Gemini与Claude，预示着AI领域或将迎来新的变革。

据多方消息透露，Grok 4的卓越表现得益于其独特的推理机制，该机制基于“第一性原理”构建，由科技巨头特斯拉的创始人马斯克亲自提出。马斯克在之前的采访中曾多次强调，Grok系列模型的目标是从最基本、最可靠的原理出发，通过逻辑推理来逼近真实世界，这一理念在Grok 4上得到了淋漓尽致的体现。

不仅如此，网络上流传的一组截图更是直接曝光了Grok 4在多个关键基准评测上的跑分情况。从泄露的数据来看，Grok 4在GPQA（研究生级物理和天文学问题）、AIME 25（2025美国数学邀请赛）以及SWE-bench（真实软件工程问题）等评测中均展现出碾压式的优势，全面超越谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus等竞争对手。

特别是在HLE这一堪称AI基准测试领域最难关卡的考试中，Grok 4取得了默认35%、最高45%的惊人高分，这一成绩是现任老大Gemini 2.5 Pro的两倍还多，相比Claude 4 Opus的正确率更是翻了四倍有余。HLE考试以其横跨100多个学科的2500道专家级试题、防记忆陷阱和隐藏测试集等设计，专为挫败LLM（大型语言模型）的锐气而设，而Grok 4的卓越表现无疑是对其强大能力的最好证明。

随着Grok 4的跑分提前泄露，网络上关于该模型的讨论愈发激烈。不少网友对Grok 4的强大能力表示惊叹，并纷纷在线催更，希望尽快见证这一划时代AI模型的正式发布。而马斯克本人也在社交媒体上多次透露，Grok 4的研发工作正在紧锣密鼓地进行中，有望在近期内与公众见面。

Grok 4不仅在自然语言处理、数学及推理领域展现出无与伦比的性能，其专为编程伴侣量身打造的Grok 4 Code模型同样令人瞩目。据透露，Grok 4 Code可以向用户咨询代码相关的问题，或直接嵌入到代码编辑器中，成为开发者不可或缺的编程助手。

尽管目前关于Grok 4的讨论大多集中在其强大的能力和即将带来的变革上，但也有一些网友持怀疑态度，认为此前关于Grok系列的炒作过于夸张，担心此次Grok 4的表现也会有所夸大。然而，无论如何，Grok 4的即将发布无疑将为AI领域带来新的活力和挑战，让我们共同期待这一划时代AI模型的到来。