天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

DeepSeek携DeepSeek-Math-V2归来,开启自我验证数学推理新方向

2025-11-29来源:快讯编辑:瑞雪

人工智能领域迎来重大突破,DeepSeek团队近日在Hugging Face平台发布了全新数学推理模型DeepSeek-Math-V2。该模型在定理证明能力上实现质的飞跃,不仅超越了Gemini DeepThink等主流模型,更在国际数学奥林匹克竞赛(IMO)级别的测试中达到金牌标准。

研发团队在论文中指出,现有AI数学模型普遍存在"重结果轻过程"的缺陷。传统训练方式仅以最终答案正确性作为评判标准,导致模型在复杂证明题中常出现"逻辑跳跃"或"隐含假设"等问题。针对这一痛点,DeepSeek创新性地提出"自我验证"训练框架,通过构建生成器-验证器协同进化系统,使模型具备自主审查推理过程的能力。

该系统包含三个核心组件:首先训练具备专业评审能力的验证器,能对证明过程进行三级评分(1分完美、0.5分存在瑕疵、0分错误)并撰写详细评语;其次引入元验证机制,通过双重检查确保评分合理性;最后开发具备自省能力的生成器,在输出答案时必须同步进行自我评估,诚实指出潜在错误。这种设计形成闭环训练体系,使模型在不断自我修正中提升推理严谨性。

实验数据显示,DeepSeek-Math-V2在多项权威基准测试中表现卓越。在包含60道证明题的IMO-ProofBench测试集中,基础子集得分接近99%,显著领先其他模型;在高级子集虽略逊于Gemini DeepThink,但已达到IMO金牌选手水平。更令人瞩目的是,该模型在Putnam 2024数学竞赛测试中取得118/120的接近满分成绩,刷新了AI数学解题纪录。

技术实现层面,研究团队突破传统强化学习框架,不再依赖答案正确性作为唯一奖励信号。通过构建验证器与生成器的协同进化机制,模型在训练过程中自动生成高难度样本,形成"以战养战"的持续提升模式。这种创新方法不仅减少了对人工标注数据的依赖,更有效抑制了大模型的幻觉问题,使推理过程具备可解释性。

该成果在学术界引发广泛关注。专家指出,DeepSeek-Math-V2的自我验证框架为AI数学推理开辟了新方向,其过程导向的训练方法有望推广至物理、计算机科学等需要严格证明的领域。目前研究团队已公开模型代码和论文,供全球研究者共同探索可验证推理的更多可能性。

岁末AI激战正酣:中美科技大厂竞逐,共绘未来智能新蓝图
该模型一经面世,就被多家科技媒体评价为“迄今最完整的一次大模型体系级升级”:不仅在推理能力、多模态理解和复杂任务处理上显著跃升,还首次将优化重点明确放在手机端推理效率与开发者平台建设上。 这也让大厂在AI领…

2025-12-15