天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

马斯克Grok 3评测出炉:性能领先DeepSeek,能否称“最聪明”尚待观察

2025-02-19来源:天脉网编辑:瑞雪

在科技界引发轰动的时刻终于到来,特斯拉创始人埃隆·马斯克携其人工智能实验室xAI的核心团队,通过一场视频直播,向全球揭晓了他们的最新力作——Grok 3,自诩为“地球上最聪慧的人工智能”。

这场发布会背后,是xAI动用了一个由20万块先进GPU构建的超大规模计算中心,其规模之庞大,令人叹为观止。尽管外界对Grok 3的完整性尚存疑虑,但其在“跑分”测试中展现的实力,已足以震撼整个业界,特别是科技爱好者群体。发布会后,市场上热炒数周的DeepSeek概念股遭遇重创,仿佛预示着新王者的诞生。

在思维能力的测试中,Grok 3展现出了其先进性。Andrej提到,Grok 3能够成功创建一个类似《卡坦岛》的六边形网格棋盘游戏网页,这是许多顶级模型都难以完成的任务。然而,在面对一个复杂的“表情符号之谜”时,Grok 3却未能解开隐藏的信息,这一挑战连DeepSeek-R1都只能部分解码。

在解决井字棋棋盘问题上,Grok 3表现出了清晰的思路,但在提高难度后要求生成“棘手”棋盘时却失败了。同时,在知识问答环节,Grok 3在没有搜索的情况下,成功估算了训练GPT-2所需的FLOPs数量,这一表现甚至超越了OpenAI自家的顶级思维模型o1-pro。

Andrej还尝试了一些有趣的LLM陷阱查询,以测试Grok 3的应对能力。结果显示,Grok 3在解决某些简单谜题时表现出色,但在幽默感和复杂伦理问题上仍有待提升。例如,在生成笑话时,Grok 3的表现并不尽如人意,生成的笑话往往缺乏新意和幽默感。同时,在面对复杂的伦理问题时,Grok 3也显得过于谨慎,甚至拒绝回答某些问题。

尽管存在这些不足,但Andrej对Grok 3的总体印象仍然积极。他认为,考虑到xAI团队从零开始仅用一年时间就达到了如此先进的水平,这一成就无疑是前所未有的。同时,他也提醒说,这些模型具有随机性,每次给出的答案可能会有所不同,因此还需要等待更多评估结果来验证Grok 3的真正实力。

最后,Andrej对xAI团队表示了祝贺,并期待将Grok 3纳入他的“LLM委员会”,听取它对未来的见解。这场科技盛宴不仅展示了xAI的强大实力,也为人工智能领域带来了新的希望和期待。

抖音电商“夺金开放麦”详解九大电商政策 商品卡免佣全年补贴135亿
抖音电商开年颁布九大政策,以降低商家经营成本,改善商家体验,引发了商家朋友们的广泛关注。2月20日,抖音电商开启“夺金开放麦”,直播以全新的互动形式,为商家详解这九大电商政策和商品卡免佣攻略。直播中,抖音电商商家运营同学分享高密度干货,为新手商家提供经营思路、帮助老商家持续降本增效。九大电商政策如何帮

2025-02-21