天脉资讯
财经快讯 价值公司 财经人物 IPO解读 热门赛道 经济解码 科技业界 文化艺术 消费零售 大燕公益 商业快讯

小红书dots.llm1大模型亮相,11万亿数据打造中文理解新标杆

2025-06-10来源:天脉网编辑:瑞雪

社交平台小红书近期在大模型技术领域取得了突破性进展,正式向公众开源了其首个大型模型——dots.llm1。这一消息迅速在行业内引起了轰动,被视为大模型发展史上的一个重要里程碑。

dots.llm1模型开源公告图

dots.llm1作为一款专家混合模型(MoE),拥有惊人的1420亿参数,但在推理阶段仅激活其中的140亿参数。这种设计不仅确保了模型的高性能,还显著降低了训练和推理的成本,为大规模应用提供了经济高效的解决方案。小红书的这一创新,无疑为大模型的广泛应用开辟了新道路。

在中文测试中,dots.llm1展现出了非凡的实力。它以91.3的平均分,超越了DeepSeek开源的V2、V3版本,以及阿里开源的Qwen2.532B和72B模型。这一成绩充分证明了dots.llm1在中文语言理解和处理方面的强大能力。无论是语义理解、文本生成还是知识问答,dots.llm1都能提供准确且高质量的回答。

在模型架构方面,dots.llm1采用了单向解码器Transformer架构,并将前馈网络替换为MoE。MoE架构将模型划分为多个专家网络,每个专家网络专注于处理输入数据的不同方面。在推理过程中,dots.llm1会根据输入标记的特性,动态选择一小部分专家网络进行计算,从而实现稀疏激活。这种设计极大减少了算力的需求,同时保持了模型的高性能。具体而言,dots.llm1的MoE由128个路由专家和2个共享专家组成,每个输入标记的处理过程中会激活6个最相关的路由专家和2个共享专家,总共激活8个专家网络。

dots.llm1还引入了经典的多头注意力机制(MHA)和RMSNorm技术。多头注意力机制在Transformer架构中广泛应用,而RMSNorm则能够更好地控制注意力机制的输出,从而提高模型的稳定性和性能。在训练过程中,dots.llm1采用了AdamW优化器,进一步提升了模型的性能和效率。

在数据处理方面,dots.llm1构建了一套三级数据处理流水线。这套流水线能够从繁杂的原始网页数据中筛选出高质量的语料。经过TxT360数据集对比实验验证,该流水线处理后的网页数据在MMLU、TriviaQA等基准测试中表现优异,超越了当前SOTA开源数据的水平。

小米机器人团队在国际赛事大放异彩 斩获双料冠军引领行业新突破
参赛模型「my16」为 WAM 模型, 是面向真实机器人场景自研的「大小脑 + 长短期记忆」世界动作模型。在 RoboChallengeCVPR 2026 真机评测系列任务中成功率(Success Rat…

2026-06-06

AI递归自我改进加速,Anthropic呼吁全球同行暂缓大模型研究以应对挑战
我们分析了 2026 年 1 月至 3 月期间真实的 Claude Code 会议,在这些会议中,Anthropic 的研究人员与 Claude 合作解决开放式的调查问题,例如找出训练运行不断崩溃的原因,或者…

2026-06-05

跃伴智能如厕机器人“小伴”亮相老博会,以AI创新破解3.2亿人如厕难题
该产品专为失能、半失能及行动不便人群打造的智能护理设备,可实现自主移动、全自动清洁,帮助用户独立完成如厕,大幅减轻照护压力。跃伴从真实生活场景出发,将“人找马桶”升级为“马桶找人”的主动服务,为行动不便者带来…

2026-06-05

2026年人形机器人价格大“缩水”:从奢侈品到亲民价 普及或成趋势
一年前需要花近百万元排队预购的工程样机,在二手网站和拆机市场上,以“5万元一车”的价格打包清仓。2025年,人形机器人的日租金最高能开到1万元。 高工机器人产业研究所数据显示,2025年中国人形机器人出货…

2026-06-05