天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

马斯克Grok 4跑分曝光,人类最后考试斩获45%高分,能否改写LLM格局?

2025-07-05来源:天脉网编辑:瑞雪

近期,AI界迎来了一则震撼人心的消息:Grok 4在“人类最后考试”(HLE)中取得了高达45%的惊人得分,这一成绩远超当前顶尖模型如Gemini与Claude,预示着AI领域或将迎来新的变革。

据多方消息透露,Grok 4的卓越表现得益于其独特的推理机制,该机制基于“第一性原理”构建,由科技巨头特斯拉的创始人马斯克亲自提出。马斯克在之前的采访中曾多次强调,Grok系列模型的目标是从最基本、最可靠的原理出发,通过逻辑推理来逼近真实世界,这一理念在Grok 4上得到了淋漓尽致的体现。

不仅如此,网络上流传的一组截图更是直接曝光了Grok 4在多个关键基准评测上的跑分情况。从泄露的数据来看,Grok 4在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)等评测中均展现出碾压式的优势,全面超越谷歌Gemini 2.5 Pro、OpenAI o3和Claude 4 Opus等竞争对手。

特别是在HLE这一堪称AI基准测试领域最难关卡的考试中,Grok 4取得了默认35%、最高45%的惊人高分,这一成绩是现任老大Gemini 2.5 Pro的两倍还多,相比Claude 4 Opus的正确率更是翻了四倍有余。HLE考试以其横跨100多个学科的2500道专家级试题、防记忆陷阱和隐藏测试集等设计,专为挫败LLM(大型语言模型)的锐气而设,而Grok 4的卓越表现无疑是对其强大能力的最好证明。

随着Grok 4的跑分提前泄露,网络上关于该模型的讨论愈发激烈。不少网友对Grok 4的强大能力表示惊叹,并纷纷在线催更,希望尽快见证这一划时代AI模型的正式发布。而马斯克本人也在社交媒体上多次透露,Grok 4的研发工作正在紧锣密鼓地进行中,有望在近期内与公众见面。

Grok 4不仅在自然语言处理、数学及推理领域展现出无与伦比的性能,其专为编程伴侣量身打造的Grok 4 Code模型同样令人瞩目。据透露,Grok 4 Code可以向用户咨询代码相关的问题,或直接嵌入到代码编辑器中,成为开发者不可或缺的编程助手。

尽管目前关于Grok 4的讨论大多集中在其强大的能力和即将带来的变革上,但也有一些网友持怀疑态度,认为此前关于Grok系列的炒作过于夸张,担心此次Grok 4的表现也会有所夸大。然而,无论如何,Grok 4的即将发布无疑将为AI领域带来新的活力和挑战,让我们共同期待这一划时代AI模型的到来。

词元:智能经济“细胞” 驱动应用爆发 催生新型商业逻辑
吴迪说,我国的大模型厂商做了非常多的算法创新,在推理成本、响应速度上不断优化,能以更少的词元完成复杂任务。黄山表示,要构建起安全、高效、普惠的人工智能基础设施,持续提升大模型推理效率、降低单个词元成本,让人工…

2026-04-05

设备外观设计:撬动溢价、塑造品牌差异化的战略利器
当客户面对功能参数相近的两款设备时,更具专业感、未来感或亲和力的外观,会直接转化为更高的价值感知和购买意愿。这带来的好处是,当客户需要增购设备时,我们的产品成为首选,因为“和现有生产线更协调,操作员无需重新适…

2026-04-05

麦积区数据局共探智慧城市建设:技术赋能,明确数字麦积建设新方向
麦积区融媒体中心讯 城市全域数字化转型是响应城市内涵式发展要求的必然选择,是推动城市治理体系和治理能力现代化的关键抓手,也是促进实体经济与数字经济深度融合、开辟新发展空间的核心引擎。为推动全区智慧城市建设,以…

2026-04-05