人工智能领域迎来新一轮开源浪潮,DeepSeek正式发布V4系列大模型预览版,同步开源全部权重。此次发布的双版本模型——旗舰版V4 PRO与经济型V4-Flash,分别以1.6万亿和2840亿总参数实现百万token上下文支持,成为继Gemini、Qwen之后第三个达成该量级的开源模型。更引人注目的是,V4-Flash以每百万输出token仅2元人民币的定价策略,直接对标OpenAI前一日发布的GPT-5.5(30美元/百万token),形成开源与闭源模型的首次正面价格交锋。
技术突破层面,V4系列首创混合注意力架构,通过token维度压缩机制与自研DSA稀疏注意力技术,将长文本处理时的算力消耗降至前代V3.2的27%,KV缓存占用压缩至10%。配合流形约束超连接(mHC)与Muon优化器,模型在32万亿token数据上完成预训练,实现百万上下文场景下的成本重构。官方宣布将该能力作为所有官方服务的标准配置,此举被视为对行业长文本定价体系的重新校准。
在模型矩阵设计上,DeepSeek采用"双型号+三模式"架构。V4-Pro定位专业级应用,在数学、STEM及竞赛代码评测中达到开源模型巅峰水平,内部测试显示其编码能力超越Claude Sonnet 4.5,接近Opus 4.6非思考模式表现;V4-Flash则以130亿激活参数实现接近Pro版的推理性能,特别在简单Agent任务中表现突出。两种型号均支持非思考模式(快速响应)、思考模式-高(显式推理链)、思考模式-极限(模型能力边界探索)三种推理模式,其中极限模式被建议用于复杂Agent场景开发。
定价策略凸显DeepSeek的生态野心。V4-Flash以1元输入(缓存命中0.2元)、2元输出的价格体系,将万亿参数模型调用成本压缩至行业最低水平;V4-Pro虽当前定价较高(输入12元/输出24元),但官方承诺下半年算力扩容后将大幅下调。特别设计的缓存折扣机制(Flash缓存命中价仅为未命中1/5,Pro为1/12),精准匹配Agent类应用将固定内容置于请求头部的调用模式,形成"基础版铺量+专业版攻坚+缓存降本"的组合策略。
应用层适配成为V4系列核心战略。模型针对Claude Code、OpenClaw等主流Agent产品进行专项优化,在Agentic Coding评测中创下开源模型最佳纪录。这种选择折射出DeepSeek的定位转型——放弃与Anthropic、Cursor等应用层巨头直接竞争,转而成为Agent时代的基础设施供应商。通过长上下文能力与极低调用成本,解决开发者在代码仓库管理、需求文档处理等场景中的token消耗痛点,重构Agent开发成本结构。
国产算力生态的同步进化为V4落地提供关键支撑。华为昇腾系列芯片在发布当日即完成全产品线适配,基于昇腾950超节点的测试数据显示,V4-Pro在8K输入场景下实现20ms单token解码时延,单卡吞吐达4700 TPS;V4-Flash更将时延压缩至10ms,单卡吞吐1600 TPS。寒武纪同步宣布完成vLLM框架适配,相关代码当日开源至GitHub。这种芯片厂商与模型团队的深度协同,源于DeepSeek耗时数月完成的CUDA到CANN技术栈迁移,虽导致模型多次延期,但最终实现发布即适配的生态突破。
当前国产开源模型已形成集群效应。Qwen3.6 Plus、Kimi K2.6、智谱GLM-5.1等模型相继突破百万上下文门槛,在代码生成、数学推理等专项能力上比肩国际顶尖水平。据国际开发者社区统计,中国开源模型的出现频率在2026年呈现指数级增长,与算力侧的适配进度形成共振。这种系统性创新能力的展现,标志着中国AI研发从单点突破迈向生态级竞争,在模型迭代、算力适配、工程优化等维度形成完整创新链条。


