马斯克xAI新动作！Grok 4.1开放使用，多项能力表现亮眼引关注-天脉财经

马斯克旗下人工智能公司 xAI 毫无征兆地扔出一枚“重磅炸弹”——最新模型 Grok 4.1 正式登场，且已全面向所有用户开放。用户可在 Grok 官网、社交平台 X 以及 iOS 和 Android 应用等多个渠道使用这一新模型。

此次更新，Grok 4.1 在 Auto 模式中即刻推送，用户还能在模型选择器中手动挑选。xAI 宣称，该模型在真实世界可用性方面实现了质的飞跃，特别是在创造力、情感互动以及协作交互领域表现卓越。它对用户细微意图的感知更为敏锐，对话更具吸引力，整体人格连贯性更强，同时延续了前代模型强大的智能与可靠性。

为了达成这些提升，xAI 在支撑 Grok 4 的大规模强化学习基础设施基础上，进一步优化了模型的风格、个性、助人性和对齐性。并且，针对不可直接验证的奖励信号，xAI 开发出全新方法，利用前沿的智能体式推理模型作为奖励模型，实现大规模自主评估与输出结果迭代。

在用户偏好对比评估中，Grok 4.1 展现出强大竞争力，相较于此前线上生产模型，有 64.78% 的概率被用户优先选择。

在通用能力方面，Grok 4.1 在盲测的人类偏好评估中树立了新标杆。在 LMArena 的 Text Arena 排行榜上，其推理模式（代号：quasarflux）以 1483 的 Elo 分数傲居总榜榜首，领先排名最高的非 xAI 模型 31 分。非推理模式（代号：tensor）也毫不逊色，无需使用思维 token 即可即时响应，以 1465 Elo 分数位列第二，即便不启用推理，也超越了其他所有模型在完整推理配置下的表现。与 Grok 4 相比，Grok 4.1 整体表现大幅提升，此前 Grok 4 总排名仅为第 33 名。

在情感智能领域，xAI 通过 EQ-Bench3 对 Grok 4.1 进行测试。EQ-Bench 是一个由大语言模型评判的测试，用于评估主动情绪智能，涵盖情绪理解、洞察力、同理心以及人际交往技能等方面。测试集包含 45 个具有挑战性的角色扮演场景，多数由预先编写的三轮对话提示组成，通过多项标准验证模型回答质量并计算归一化 Elo 分数。结果显示，Grok 4.1 的推理模式和非推理模式在榜单中占据前两名。

创意写作方面，xAI 在 Creative Writing v3 基准测试上评估了 4.1 系列模型。该基准要求模型针对 32 个不同写作提示生成回答，并进行 3 轮迭代，评分依据评分细则和模型对战的归一化 Elo 分数。结果显示，Grok 4.1 的推理模式和非推理模式分别位居第二和第三名，仅次于早期 GPT 5.1。

针对配备搜索工具的 Fast（非推理）模型易出现事实性错误的问题，xAI 在 Grok 4.1 的后训练过程中着重降低信息查询类提示的事实幻觉。通过按类别分层抽样评估模型幻觉率，并评测 FActScore（包含 500 个关于不同人物的传记类问题的公共基准测试），观察到生产环境信息查询提示中幻觉率显著下降。