社交平台小红书近期在大模型技术领域取得了突破性进展,正式向公众开源了其首个大型模型——dots.llm1。这一消息迅速在行业内引起了轰动,被视为大模型发展史上的一个重要里程碑。
dots.llm1作为一款专家混合模型(MoE),拥有惊人的1420亿参数,但在推理阶段仅激活其中的140亿参数。这种设计不仅确保了模型的高性能,还显著降低了训练和推理的成本,为大规模应用提供了经济高效的解决方案。小红书的这一创新,无疑为大模型的广泛应用开辟了新道路。
在中文测试中,dots.llm1展现出了非凡的实力。它以91.3的平均分,超越了DeepSeek开源的V2、V3版本,以及阿里开源的Qwen2.532B和72B模型。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的强大能力。无论是语义理解、文本生成还是知识问答,dots.llm1都能提供准确且高质量的回答。
在模型架构方面,dots.llm1采用了单向解码器Transformer架构,并将前馈网络替换为MoE。MoE架构将模型划分为多个专家网络,每个专家网络专注于处理输入数据的不同方面。在推理过程中,dots.llm1会根据输入标记的特性,动态选择一小部分专家网络进行计算,从而实现稀疏激活。这种设计极大减少了算力的需求,同时保持了模型的高性能。具体而言,dots.llm1的MoE由128个路由专家和2个共享专家组成,每个输入标记的处理过程中会激活6个最相关的路由专家和2个共享专家,总共激活8个专家网络。
dots.llm1还引入了经典的多头注意力机制(MHA)和RMSNorm技术。多头注意力机制在Transformer架构中广泛应用,而RMSNorm则能够更好地控制注意力机制的输出,从而提高模型的稳定性和性能。在训练过程中,dots.llm1采用了AdamW优化器,进一步提升了模型的性能和效率。
在数据处理方面,dots.llm1构建了一套三级数据处理流水线。这套流水线能够从繁杂的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证,该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优异,超越了当前SOTA开源数据的水平。