天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

DeepSeek-OCR 2革新登场:模拟人类视觉逻辑,解锁复杂图像理解新境界

2026-01-28来源:快讯编辑:瑞雪

DeepSeek近日推出新一代OCR模型DeepSeek-OCR 2,通过引入创新的DeepEncoder V2架构,突破了传统视觉-语言模型(VLM)的机械处理模式。该模型能够模拟人类视觉逻辑,动态解析图像内容结构,在复杂排版场景中展现出显著优势。这一技术突破标志着OCR领域从"像素识别"向"语义理解"的范式转变。

传统VLM模型普遍采用光栅扫描顺序处理图像,即从左上角到右下角逐块扫描。这种处理方式在面对多栏文档、混合排版报表等复杂场景时,往往难以准确捕捉内容间的逻辑关系。例如在处理包含公式与文字混排的科研论文时,传统模型可能将公式编号与相邻段落错误关联,导致语义理解偏差。

DeepSeek-OCR 2通过动态重组图像模块的创新机制,实现了真正的语义感知处理。该模型不再拘泥于固定扫描路径,而是根据内容语义自动调整处理顺序。在OmniDocBench v1.5基准测试中,新模型以91.09%的准确率刷新纪录,较前代提升3.73个百分点,在金融报表、法律文书等结构化文档处理中表现尤为突出。

技术团队通过优化视觉Token生成机制,将计算成本控制在合理范围。模型视觉Token数量严格限定在256-1120区间,与Google Gemini-3 Pro保持同等效率标准。实际生产测试显示,该模型处理在线用户日志的重复率下降2.08%,PDF预训练数据重复率降低0.81%,展现出卓越的工程实用性。

DeepEncoder V2架构的探索具有更深层的行业意义。该架构创新性地将语言模型架构应用于视觉编码,天然继承了大型语言模型(LLM)在混合专家(MoE)架构和高效注意力机制等方面的优化成果。这种跨模态架构融合为多模态大模型发展提供了新的技术路径,特别是在处理需要逻辑推理的视觉任务时展现出独特优势。

GTC 2026现场:光轮智能低调“掌控”Physical AI关键环节成隐形巨头
光轮的展台Booth 1406,位置也是相当核心,就在入口一进来的地方,旁边就是三星、美光等存储芯片巨头,还有TogetherAI、Lambda、Global AI等AI Infra重量级玩家。 也正因如…

2026-03-21

宇树科技科创板IPO获受理 人形机器人业务崛起 净利润飙升成行业黑马
从招股书来看,宇树科技的四足机器人在2022年和2023年的营收占比均超过了75%,2024年、2025年的占比分别降到了59.53%、42.25%。 宇树科技提到,2022年到2024年及2025年前9个月…

2026-03-21

Mind Robotics斩获5亿美元A轮融资 估值达20亿 加速工业AI机器人布局
Mind Robotics日前宣布获5亿美元A轮融资,本轮融资由Accel和AndreessenHorowitz共同领导,以在工业规模上构建和部署支持人工智能的机器人系统。 RJ Scaringe表示:“…

2026-03-21