近日,AI领域迎来重大突破,据多方消息透露,马斯克旗下的Grok 4模型在“人类最后考试”(HLE)中取得了惊人成绩,得分高达45%,这一成绩远超当前顶尖模型如谷歌Gemini与OpenAI的Claude,瞬间引爆整个AI圈。
据悉,Grok 4以“第一性原理”为核心理念构建推理机制,这一创新思路不仅令其在理论层面具备深厚基础,更在实际应用中展现出卓越性能。马斯克此前在多个场合提及,Grok 4将是一次颠覆性的升级,如今看来,这一预言正逐步成为现实。
网友LEGIT曝光的截图显示,Grok 4在GPQA、AIME 25及SWE-bench等多项关键基准评测中均表现出色,尤其是在GPQA(研究生级物理和天文学问题)上,得分接近90%,远超其他竞争对手。而在AIME 25(2025美国数学邀请赛)中,Grok 4更是以95%的高分傲视群雄,进一步巩固了其在学术领域的领先地位。
尤为在被誉为“AI领域最难考试”的人类最后考试(HLE)中,Grok 4同样不负众望,以最高45%的得分,成为迄今为止表现最佳的模型。这一成绩不仅是对Grok 4综合能力的有力证明,更是对马斯克“第一性原理”理念的最好诠释。
HLE考试以其横跨100多个学科的2500道专家级试题著称,其中包含多模态题型、多项选择题以及防记忆陷阱和隐藏测试集,旨在全面考验LLM模型的推理与学习能力。Grok 4在此类高难度考试中的优异表现,无疑为其赢得了广泛的赞誉与期待。
随着Grok 4的即将发布,AI社区的讨论热度不断攀升。有网友表示,Grok 4的强大表现意味着该模型已经掌握了极其丰富的世界知识,这将为AI领域带来前所未有的变革。同时,也有部分网友对Grok 4的真实性表示怀疑,认为其成绩可能经过针对性训练而得出。
然而,无论外界如何评价,Grok 4的发布都已成为AI领域不可忽视的重大事件。马斯克亲自带货,多次在社交媒体上提及Grok 4的研发进展,并表示将尽快向公众展示这一创新成果。可以预见的是,随着Grok 4的正式发布,AI领域将迎来一场新的革命。