天脉资讯
财经视野 科技数码 探索发现 教育学习 娱乐红人 时尚秘籍 文化艺术 游戏天地 星座解读 宠物小乖 营养美食 大燕公益 商业快讯

Qwen3登顶开源新王!235B大模型引领混合推理时代

2025-04-29来源:天脉网编辑:瑞雪

近期,AI界迎来了一次重大更新,源神Qwen系列推出了其最新版本Qwen3,并在五一假期前正式亮相,吸引了大量开发者和爱好者的关注。

此次Qwen3推出的阵容堪称豪华,一次性带来了包括2个MoE(稀疏专家)模型和6个稠密模型在内的8个模型,规模从0.6B到235B不等。其中,旗舰模型Qwen3-235B-A22B表现尤为抢眼,在多个基准评测中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶尖模型相比毫不逊色。

Qwen3不仅在大型模型上表现出色,小型模型同样具备强大的实力。小型MoE模型Qwen3-30B-A3B,尽管激活参数量仅为QwQ-32B的十分之一,却实现了全面超越;而轻量级Qwen3-4B,性能也几乎达到了Qwen2.5-72B-Instruct的水平。

Qwen3延续了源神系列的惯例,上线即开源,并且用户可以在网页端体验到该系列中最强大的几个模型。Qwen3不仅在Hugging Face等平台上开源了完整模型,还贴心地提供了部分对应的预训练版本,如Qwen3-30B-A3B的预训练版Qwen3-30B-A3B-Base。

Qwen3系列模型在功能上也有了显著提升。其中,最引人注目的是其混合思维模式,支持思考模式和非思考模式两种推理方式。思考模式下,模型会一步步推理后再给出最终答案,适合处理复杂问题;非思考模式则快速响应,适合简单问题。这种设计让用户可以根据任务需求,灵活调整模型的“思考量”,在成本和推理质量之间找到最佳平衡点。

Qwen3还支持119种语言和方言,让全球用户都能在新上线的Qwen APP中畅通无阻地体验新一代大模型。同时,Qwen3的编码能力和智能体(Agentic)能力也得到了优化,并进一步增强了对MCP(多智能体协作协议)的支持。在给出的视频演示中,模型能够出色地完成提取页面Markdown内容并绘制柱状图的任务,并通过MCP协议主动将结果保存到本地文件中。

Qwen3的成功离不开其背后的三阶段预训练和四阶段后训。在预训练方面,Qwen3的数据集相比Qwen2.5有了大幅扩展,使用了约36万亿tokens,覆盖了119种语言和方言。预训练过程分为三个阶段,逐步提升模型的语言能力和通识知识基础,并引入高质量的长上下文数据,确保模型能有效处理更长的输入。在后训练方面,Qwen3采用了四阶段训练流程,包括长链式思考冷启动、基于推理的强化学习、思考模式与非思考模式融合以及通用领域强化学习,从而打造出了兼具逐步推理能力和快速响应能力的混合模型。