天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 营养美食 大燕公益 商业快讯

马斯克Grok 4跑分曝光,人类最后考试斩获45%高分,能否改写LLM格局?

2025-07-05来源:天脉网编辑:瑞雪

近期,AI界迎来了一则震撼人心的消息:Grok 4在“人类最后考试”(HLE)中取得了高达45%的惊人得分,这一成绩远超当前顶尖模型如Gemini与Claude,预示着AI领域或将迎来新的变革。

据多方消息透露,Grok 4的卓越表现得益于其独特的推理机制,该机制基于“第一性原理”构建,由科技巨头特斯拉的创始人马斯克亲自提出。马斯克在之前的采访中曾多次强调,Grok系列模型的目标是从最基本、最可靠的原理出发,通过逻辑推理来逼近真实世界,这一理念在Grok 4上得到了淋漓尽致的体现。

不仅如此,网络上流传的一组截图更是直接曝光了Grok 4在多个关键基准评测上的跑分情况。从泄露的数据来看,Grok 4在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)等评测中均展现出碾压式的优势,全面超越谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus等竞争对手。

特别是在HLE这一堪称AI基准测试领域最难关卡的考试中,Grok 4取得了默认35%、最高45%的惊人高分,这一成绩是现任老大Gemini 2.5 Pro的两倍还多,相比Claude 4 Opus的正确率更是翻了四倍有余。HLE考试以其横跨100多个学科的2500道专家级试题、防记忆陷阱和隐藏测试集等设计,专为挫败LLM(大型语言模型)的锐气而设,而Grok 4的卓越表现无疑是对其强大能力的最好证明。

随着Grok 4的跑分提前泄露,网络上关于该模型的讨论愈发激烈。不少网友对Grok 4的强大能力表示惊叹,并纷纷在线催更,希望尽快见证这一划时代AI模型的正式发布。而马斯克本人也在社交媒体上多次透露,Grok 4的研发工作正在紧锣密鼓地进行中,有望在近期内与公众见面。

Grok 4不仅在自然语言处理、数学及推理领域展现出无与伦比的性能,其专为编程伴侣量身打造的Grok 4 Code模型同样令人瞩目。据透露,Grok 4 Code可以向用户咨询代码相关的问题,或直接嵌入到代码编辑器中,成为开发者不可或缺的编程助手。

尽管目前关于Grok 4的讨论大多集中在其强大的能力和即将带来的变革上,但也有一些网友持怀疑态度,认为此前关于Grok系列的炒作过于夸张,担心此次Grok 4的表现也会有所夸大。然而,无论如何,Grok 4的即将发布无疑将为AI领域带来新的活力和挑战,让我们共同期待这一划时代AI模型的到来。