阿里巴巴在“五一”前夕震撼发布,其新一代通义千问模型Qwen3正式开源,并且一次性推出了8个版本,这一举动在业界引起了广泛关注。
Qwen3被阿里千问大模型官网形容为“思深,行速”,强调它是中国首个混合推理模型,能在同一模型中灵活切换“推理”与“非推理”模式,根据不同问题智能选择“快思考”或“慢思考”。
最新数据显示,阿里Qwen系列大模型累计下载量已达到3亿次,衍生模型数量超过10万个,位居全球首位。Qwen3的发布迅速吸引了大量开发者的使用和测评。
Qwen3提供了多种参数规模的模型版本,包括2款30B和235B的MoE模型,以及0.6B、1.7B、4B、8B、14B、32B等6款密集模型。阿里方面表示,Qwen3的30B参数MoE模型在仅激活3B参数时,即可达到上一代Qwen2.5-32B模型的性能水平,而32B版本的Qwen3模型则能超越上一代Qwen2.5-72B的性能。
多位开发者在接受采访时表示,千问3系列中的小参数量模型表现尤为突出。一名开发者说:“32B模型的表现非常出色,小参数量就能达到优秀的效果,这对于大模型应用研发人员或公司来说是一个巨大的福利。毕竟,大参数量的成本还是太高了。目前来看,32B的性价比最高,而235B版本相比千问2.5提升并不明显。”
有业内人士推测,千问3在小参数模型上的发力,可能是为了准备与苹果生态的合作。此前,阿里董事局主席蔡崇信曾确认阿里与苹果在手机上合作落地AI的传闻。而最新的消息称,苹果正在积极推进在国行版iPhone上引入AI功能的计划,并计划在2025年中期前实现。
尽管Qwen3发布后,有媒体报道称其性能全面碾压同样开源的DeepSeek R1,但经过多家媒体的深入分析和第三方测评,这一说法并未得到全面证实。著名华裔AI学者吴恩达的公司Artificial Analysis对包括Qwen3和DeepSeek R1在内的大模型进行了测试,结果显示Qwen3在某些指标上超越DeepSeek R1,但并非全面碾压。
在多个测评项目中,Qwen3 235B版本的表现与DeepSeek R1相差不大,甚至在某些项目上略逊一筹。然而,在编码能力和数学推理等项目中,Qwen3 235B版本则表现出了较强的实力。因此,业内普遍认为,Qwen3推理模型整体表现略好于R1,但并未形成太大的突破。
另一名开发者表示,此次千问3系列的超大参数模型表现不及预期,但小参数模型却远超预期。特别是4B模型在数学能力上的表现,让他感到十分惊讶。小参数量模型的特点在于能够主要用于端侧部署,如4B模型可用于手机端,8B可用于电脑和汽车端侧,而32B则适用于企业大规模部署。
随着算力成本的降低和性能的提升,业内分析普遍认为,千问3为即将到来的智能体Agent和大模型应用爆发提供了更好的支持。多家芯片厂商已经完成了对千问3的适配和调优工作,包括英伟达、英特尔、联发科等头部芯片厂商。
在千问3发布后,多个行业领域也迅速展开了与千问3的合作。中国一汽基于阿里通义大模型打造了汽车行业首个面向全集团运营管理的AI Agent——OpenMind。中国电信、蚂蚁集团等也纷纷发布了智能体相关平台,以加速AI Agent在政务、金融等领域的落地。
然而,通用Agent在工程和技术模型两个方面仍面临诸多挑战。业内人士表示,目前能够处理通用或复杂任务的AI Agent并不多,这些产品要么不够通用,要么无法应对复杂的任务。
阿里云CTO和通义实验室负责人周靖人在接受采访时表示,今年在大模型领域,模型能力将继续在类人思考和多模态上有所提升,同时模型和底层云计算系统也将更深度结合,以提升训练和推理效率。