近日,国内AI算力领域迎来重大突破——由中科曙光研发的三套scaleX万卡超集群系统,在国家超算互联网核心节点同步完成部署并投入试运行。这一里程碑事件标志着我国成为全球首个实现超3万张AI加速卡规模化部署并实际运营的国家,国产AI算力池规模跃居世界前列。
此次上线的三套超集群系统,采用中科曙光自主研发的scaleFabric高速互联架构,单集群可支持400Gb/s带宽与亚微秒级延迟通信。通过浸没相变液冷技术与高密度刀片架构的融合创新,系统整体能效比(PUE)低至1.04,单机柜算力密度较传统方案提升20倍。这种设计突破了万卡级集群在供电、散热方面的工程瓶颈,为后续向十万卡规模扩展奠定技术基础。
在系统调度层面,该平台构建了"数字孪生+智能引擎"双轮驱动体系。通过物理集群的数字化映射,实现故障预测准确率超95%;智能调度引擎可同时管理万级计算节点,支持每秒万级作业分发,系统可用性达到99.99%。这种架构设计使国产算力资源首次具备服务十万级用户的能力,为大规模AI应用落地提供关键支撑。
从应用场景看,该算力池已全面覆盖万亿参数大模型训练、高通量AI推理、科学计算等前沿领域。在生物医药领域,支撑蛋白质结构预测模型完成千亿级参数训练;在材料科学方向,助力新型催化剂研发效率提升300%。更值得关注的是,系统通过开放架构兼容多品牌加速卡,已完成400余个主流模型的适配优化,有效降低开发者迁移成本。
作为国家超算互联网的关键枢纽,此次上线的核心节点已连接全国30余个超算中心,服务用户规模突破百万级。平台单日作业处理峰值达103万次,累计完成1.96亿次计算任务,形成覆盖科研、产业、政务的多维度服务生态。这种"算力联网"模式,有效解决了区域算力孤岛问题,使西部能源富集区的算力资源得以高效输送至东部需求中心。
在国际竞争维度,此次突破具有特殊战略意义。当海外科技巨头仍在通过堆砌硬件规模争夺算力制高点时,中国已率先构建起工程化、体系化的算力运营体系。这种差异化的竞争路径,既避免了单纯追求参数规模的资源内耗,又为国产算力生态的可持续发展开辟了新赛道。随着开放架构的持续演进,一个兼容多芯片、多框架的国产算力共同体正在加速形成。


