马斯克Grok 4跑分曝光，人类最后考试斩获45%高分，能否改写LLM格局？-天脉财经

近期，AI界迎来了一则震撼人心的消息：Grok 4在“人类最后考试”（HLE）中取得了高达45%的惊人得分，这一成绩远超当前顶尖模型如Gemini与Claude，预示着AI领域或将迎来新的变革。

据多方消息透露，Grok 4的卓越表现得益于其独特的推理机制，该机制基于“第一性原理”构建，由科技巨头特斯拉的创始人马斯克亲自提出。马斯克在之前的采访中曾多次强调，Grok系列模型的目标是从最基本、最可靠的原理出发，通过逻辑推理来逼近真实世界，这一理念在Grok 4上得到了淋漓尽致的体现。

不仅如此，网络上流传的一组截图更是直接曝光了Grok 4在多个关键基准评测上的跑分情况。从泄露的数据来看，Grok 4在GPQA（研究生级物理和天文学问题）、AIME 25（2025美国数学邀请赛）以及SWE-bench（真实软件工程问题）等评测中均展现出碾压式的优势，全面超越谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus等竞争对手。

特别是在HLE这一堪称AI基准测试领域最难关卡的考试中，Grok 4取得了默认35%、最高45%的惊人高分，这一成绩是现任老大Gemini 2.5 Pro的两倍还多，相比Claude 4 Opus的正确率更是翻了四倍有余。HLE考试以其横跨100多个学科的2500道专家级试题、防记忆陷阱和隐藏测试集等设计，专为挫败LLM（大型语言模型）的锐气而设，而Grok 4的卓越表现无疑是对其强大能力的最好证明。

随着Grok 4的跑分提前泄露，网络上关于该模型的讨论愈发激烈。不少网友对Grok 4的强大能力表示惊叹，并纷纷在线催更，希望尽快见证这一划时代AI模型的正式发布。而马斯克本人也在社交媒体上多次透露，Grok 4的研发工作正在紧锣密鼓地进行中，有望在近期内与公众见面。

Grok 4不仅在自然语言处理、数学及推理领域展现出无与伦比的性能，其专为编程伴侣量身打造的Grok 4 Code模型同样令人瞩目。据透露，Grok 4 Code可以向用户咨询代码相关的问题，或直接嵌入到代码编辑器中，成为开发者不可或缺的编程助手。

尽管目前关于Grok 4的讨论大多集中在其强大的能力和即将带来的变革上，但也有一些网友持怀疑态度，认为此前关于Grok系列的炒作过于夸张，担心此次Grok 4的表现也会有所夸大。然而，无论如何，Grok 4的即将发布无疑将为AI领域带来新的活力和挑战，让我们共同期待这一划时代AI模型的到来。

小红书广告投放：解码销量增长密码，生态化融入驱动消费决策新路径

2026-04-05

全球数据分析服务：中小企业出海利器，洞察需求与优化策略全解析

2026-04-05

对话马斯克：AI与机器人将重塑未来，人类或迈向全民高收入与后货币时代

2026-04-05

春日消费新图景：从舌尖到心间河南烟火气里涌动新活力

2026-04-05

词元：智能经济“细胞” 驱动应用爆发催生新型商业逻辑

吴迪说，我国的大模型厂商做了非常多的算法创新，在推理成本、响应速度上不断优化，能以更少的词元完成复杂任务。黄山表示，要构建起安全、高效、普惠的人工智能基础设施，持续提升大模型推理效率、降低单个词元成本，让人工…

2026-04-05

绿色消费积分合规玩法解析：真实消费为基础，如何避免涉传风险？

2026-04-05

设备外观设计：撬动溢价、塑造品牌差异化的战略利器

当客户面对功能参数相近的两款设备时，更具专业感、未来感或亲和力的外观，会直接转化为更高的价值感知和购买意愿。这带来的好处是，当客户需要增购设备时，我们的产品成为首选，因为“和现有生产线更协调，操作员无需重新适…

2026-04-05

麦积区数据局共探智慧城市建设：技术赋能，明确数字麦积建设新方向

麦积区融媒体中心讯城市全域数字化转型是响应城市内涵式发展要求的必然选择，是推动城市治理体系和治理能力现代化的关键抓手，也是促进实体经济与数字经济深度融合、开辟新发展空间的核心引擎。为推动全区智慧城市建设，以…

2026-04-05