标题:马斯克揭秘Grok 4:以“第一性原理”重塑LLM格局,跑分震惊业界
近日,AI界迎来了一场震撼人心的消息泄露——备受瞩目的Grok 4模型在“人类最后考试”(HLF)中取得了高达45%的惊人得分,这一成绩远超当前顶尖模型如Gemini与Claude,预示着AI领域即将迎来重大变革。
据知情人士透露,Grok 4的卓越表现得益于其独特的推理机制,该机制基于“第一性原理”构建,这一理念由特斯拉创始人马斯克亲自提出。马斯克曾在多个场合强调,Grok 4将不再拘泥于传统的AI训练方法,而是像物理学家一样,从最基本、最核心的公理出发,进行深度推理与分析。
此次泄露的跑分数据不仅证实了马斯克的预言,还进一步展示了Grok 4在多个关键基准评测上的全面领先。在GPQA(研究生级物理和天文学问题)、AIME 25(2025美国数学邀请赛)以及SWE-bench(真实软件工程问题)等评测中,Grok 4均取得了远超竞争对手的优异成绩。
尤为引人注目的是,在被誉为“AI基准测试领域最难关卡”的HLF考试中,Grok 4以默认35%、最高45%的得分,将现任榜首Gemini 2.5 Pro远远甩在身后,其得分甚至达到了Gemini的两倍之多。这一成绩无疑是对Grok 4强大世界知识掌握能力的最佳证明。
面对如此耀眼的成绩,网友们纷纷表示期待Grok 4的正式发布。有网友甚至调侃道:“Grok 4源代码泄露了吗?我们已经迫不及待想要体验这款万能模型了!”而马斯克也不负众望,多次在社交媒体上透露Grok 4的研发进展,并表示将在近期内发布这一革命性产品。
Grok 4不仅在自然语言处理、数学推理等领域展现出无与伦比的性能,其编码能力同样令人瞩目。马斯克特别强调了Grok 4在编码方面的突破,这一举措无疑是对当前AI编码能力竞争趋势的积极响应。
然而,尽管Grok 4的跑分数据令人振奋,但仍有部分网友持谨慎态度。他们担心此次泄露的数据可能经过“针对性训练”,从而影响了评测结果的公正性。不过,这些质疑并未能阻挡Grok 4成为业界关注的焦点。
随着Grok 4发布日期的临近,AI界正翘首以待这款革命性产品的正式亮相。马斯克能否以Grok 4改写LLM格局,让我们拭目以待。