近日,一则关于人工智能领域重大突破的消息在网络上迅速传播。据多方消息透露,马斯克旗下的AI项目Grok 4在备受瞩目的“人类最后考试”(HLE)中取得了惊人的45%得分,这一成绩远超当前其他顶尖模型,如谷歌的Gemini与Anthropic的Claude。
据悉,Grok 4采用了马斯克一直倡导的“第一性原理”构建推理机制,这一创新方法使得Grok 4在逻辑推理与世界知识掌握上实现了质的飞跃。这一消息不仅引起了AI圈的广泛关注,也让外界对Grok 4的正式发布充满期待。
网络上流传的一组截图更是直接泄露了Grok 4在多个关键基准评测上的跑分情况。根据泄露的数据,Grok 4在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)评测中均表现出色,全面碾压了包括谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus在内的其他模型。特别是在HLE考试中,Grok 4的最高得分高达45%,是现任老大Gemini 2.5 Pro得分的两倍,这一成绩无疑让Grok 4成为了当前AI领域的佼佼者。
HLE考试以其横跨100多个学科的2500道专家级试题和严苛的防作弊机制而闻名,是专为挫败LLM(大型语言模型)锐气而设计的终极闭卷学术基准。Grok 4能在这样的考试中取得如此高的分数,无疑证明了其强大的世界知识和推理能力。这一成绩也让外界对Grok 4的正式发布充满了期待和好奇。
马斯克此前曾在多次采访和活动中提及Grok 4的研发进展,并表示将采用“第一性原理”进行推理机制构建。这一创新方法的应用使得Grok 4在能力上有了显著提升,也让其在AI基准测试领域闯过了最难关卡之一。随着Grok 4发布日期的临近,AI圈内外都在密切关注着这一重磅新品的到来。