天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

马斯克Grok 3评测出炉:性能领先DeepSeek,能否称“最聪明”尚待观察

2025-02-19来源:天脉网编辑:瑞雪

在科技界引发轰动的时刻终于到来,特斯拉创始人埃隆·马斯克携其人工智能实验室xAI的核心团队,通过一场视频直播,向全球揭晓了他们的最新力作——Grok 3,自诩为“地球上最聪慧的人工智能”。

这场发布会背后,是xAI动用了一个由20万块先进GPU构建的超大规模计算中心,其规模之庞大,令人叹为观止。尽管外界对Grok 3的完整性尚存疑虑,但其在“跑分”测试中展现的实力,已足以震撼整个业界,特别是科技爱好者群体。发布会后,市场上热炒数周的DeepSeek概念股遭遇重创,仿佛预示着新王者的诞生。

在思维能力的测试中,Grok 3展现出了其先进性。Andrej提到,Grok 3能够成功创建一个类似《卡坦岛》的六边形网格棋盘游戏网页,这是许多顶级模型都难以完成的任务。然而,在面对一个复杂的“表情符号之谜”时,Grok 3却未能解开隐藏的信息,这一挑战连DeepSeek-R1都只能部分解码。

在解决井字棋棋盘问题上,Grok 3表现出了清晰的思路,但在提高难度后要求生成“棘手”棋盘时却失败了。同时,在知识问答环节,Grok 3在没有搜索的情况下,成功估算了训练GPT-2所需的FLOPs数量,这一表现甚至超越了OpenAI自家的顶级思维模型o1-pro。

Andrej还尝试了一些有趣的LLM陷阱查询,以测试Grok 3的应对能力。结果显示,Grok 3在解决某些简单谜题时表现出色,但在幽默感和复杂伦理问题上仍有待提升。例如,在生成笑话时,Grok 3的表现并不尽如人意,生成的笑话往往缺乏新意和幽默感。同时,在面对复杂的伦理问题时,Grok 3也显得过于谨慎,甚至拒绝回答某些问题。

尽管存在这些不足,但Andrej对Grok 3的总体印象仍然积极。他认为,考虑到xAI团队从零开始仅用一年时间就达到了如此先进的水平,这一成就无疑是前所未有的。同时,他也提醒说,这些模型具有随机性,每次给出的答案可能会有所不同,因此还需要等待更多评估结果来验证Grok 3的真正实力。

最后,Andrej对xAI团队表示了祝贺,并期待将Grok 3纳入他的“LLM委员会”,听取它对未来的见解。这场科技盛宴不仅展示了xAI的强大实力,也为人工智能领域带来了新的希望和期待。

谷歌与默沙东10亿美元携手:AI智能体全面融入制药全链条新探索
当地时间4月22日,默沙东宣布与谷歌正式达成价值高达10亿美元、计划持续多年的合作,谷歌将在默沙东的研发、制造、商业和职能方面均部署智能体平台。此次谷歌将直接嵌入默沙东全公司的系统性建设。搜狐AI健康将持续…

2026-04-26

杭州镜识科技Bolt人形机器人:11米/秒奔跑速度,刷新全球纪录
其采用全尺寸人体工学设计,身高175-177厘米,体重75公斤,与普通成年男性体型相近,外观线条流畅,无外露元器件,兼具美感与实用性,脚掌设计有可弯折自由度,能有效缓解高速奔跑时的地面冲击。 除室内11米/…

2026-04-25

史前高科技传说大揭秘:是远古智慧还是现代想象的产物?
坊间流传的那些所谓史前人类掌握高科技的传闻,其实不过是几则似真似假的故事而已。 第二个传说,则是关于埃及金字塔壁画中出现现代飞机的说法。考古学家们给出了完全不同的解释:这些看似飞机的图案,其实只是古埃及象…

2026-04-25