Qwen3登顶开源新王！235B大模型引领混合推理时代-天脉网

近期，AI界迎来了一次重大更新，源神Qwen系列推出了其最新版本Qwen3，并在五一假期前正式亮相，吸引了大量开发者和爱好者的关注。

此次Qwen3推出的阵容堪称豪华，一次性带来了包括2个MoE（稀疏专家）模型和6个稠密模型在内的8个模型，规模从0.6B到235B不等。其中，旗舰模型Qwen3-235B-A22B表现尤为抢眼，在多个基准评测中，与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶尖模型相比毫不逊色。

Qwen3不仅在大型模型上表现出色，小型模型同样具备强大的实力。小型MoE模型Qwen3-30B-A3B，尽管激活参数量仅为QwQ-32B的十分之一，却实现了全面超越；而轻量级Qwen3-4B，性能也几乎达到了Qwen2.5-72B-Instruct的水平。

Qwen3延续了源神系列的惯例，上线即开源，并且用户可以在网页端体验到该系列中最强大的几个模型。Qwen3不仅在Hugging Face等平台上开源了完整模型，还贴心地提供了部分对应的预训练版本，如Qwen3-30B-A3B的预训练版Qwen3-30B-A3B-Base。

Qwen3系列模型在功能上也有了显著提升。其中，最引人注目的是其混合思维模式，支持思考模式和非思考模式两种推理方式。思考模式下，模型会一步步推理后再给出最终答案，适合处理复杂问题；非思考模式则快速响应，适合简单问题。这种设计让用户可以根据任务需求，灵活调整模型的“思考量”，在成本和推理质量之间找到最佳平衡点。

Qwen3还支持119种语言和方言，让全球用户都能在新上线的Qwen APP中畅通无阻地体验新一代大模型。同时，Qwen3的编码能力和智能体（Agentic）能力也得到了优化，并进一步增强了对MCP（多智能体协作协议）的支持。在给出的视频演示中，模型能够出色地完成提取页面Markdown内容并绘制柱状图的任务，并通过MCP协议主动将结果保存到本地文件中。

Qwen3的成功离不开其背后的三阶段预训练和四阶段后训。在预训练方面，Qwen3的数据集相比Qwen2.5有了大幅扩展，使用了约36万亿tokens，覆盖了119种语言和方言。预训练过程分为三个阶段，逐步提升模型的语言能力和通识知识基础，并引入高质量的长上下文数据，确保模型能有效处理更长的输入。在后训练方面，Qwen3采用了四阶段训练流程，包括长链式思考冷启动、基于推理的强化学习、思考模式与非思考模式融合以及通用领域强化学习，从而打造出了兼具逐步推理能力和快速响应能力的混合模型。