近日,社交内容平台小红书在大型语言模型领域迈出重要一步,开源了其首个混合专家(MoE)大模型dots.llm1,这一举动在开源社区引起了广泛关注。
dots.llm1是一个拥有1420亿参数的庞然大物,但在推理过程中仅需激活140亿参数,便能在中英文、数学、对齐等多项任务上展现出与阿里Qwen3-32B相媲美的性能。尤其在中文表现上,dots.llm1在C-eval上取得了92.2分的高分,超越了包括DeepSeek-V3在内的众多模型。
小红书开源dots.llm1的一大亮点在于其数据处理能力。在预训练阶段,dots.llm1.ins使用了高达11.2万亿的非合成数据。作为国民级社交内容平台,小红书凭借其庞大的用户基础和丰富的数据资源,证明了通过高效的数据处理框架和高质量的数据,可以进一步拓展大型语言模型的能力边界。
根据小红书人文智能实验室(hi lab)发布的技术报告,dots.llm1的成功得益于多个方面的创新。首先,团队提出了一个可扩展且细粒度的三阶段数据处理框架,旨在生成大规模、高质量和多样化的数据,以增强预训练的可复现性。其次,dots.llm1在推理过程中仅激活部分参数,实现了性能和成本效益的双重提升。团队还引入了一种创新的MoE全对多通信和计算重叠配方,以及基于1F1B通道调度和高效的分组GEMM实现,进一步提高了计算效率。
在模型效果方面,dots.llm1同样表现出色。在综合指标上,dots.llm1 base模型和instruct模型均与Qwen2.5-72B模型不相上下。在中英文通用任务、数学推理、代码生成和对齐基准测试中,dots.llm1均展现出了强大的性能。尤其在双语任务、数学推理和对齐能力方面,dots.llm1取得了与Qwen3-32B相当或更好的成绩。
具体来说,在英语表现上,dots.llm1在MMLU、MMLU-Redux、DROP和GPQA等问答任务中与Qwen系列模型相比具有竞争力。在数学方面,dots.llm1在AIME24上获得了33.1分,凸显了其在复杂数学问题解决方面的高级能力。在中文表现上,dots.llm1在CLUEWSC上获得了92.6分的高分,与行业领先的中文语义理解性能相匹配。在对齐性能方面,dots.llm1也展现出了有竞争力的表现,能够准确解释和执行复杂的指令,同时保持与人类意图和价值观的一致性。
小红书此次开源dots.llm1,不仅为大型语言模型领域注入了新的活力,也展示了其在数据处理和模型优化方面的深厚实力。未来,随着dots.llm1的不断完善和开源社区的积极参与,我们有理由相信,大型语言模型的能力边界将不断拓展,为人工智能领域带来更多的创新和突破。