全球最强大的AI超算Colossus近日再度成为科技界的焦点,这一由xAI与英伟达联手打造的超级计算机不仅规模空前,更在设计上实现了多项创新突破。据最新报道,Colossus已经完成了第一阶段的建设,并全面上线运行,而未来其规模还将进一步扩大一倍。
Colossus位于美国田纳西州孟菲斯,其首次亮相便惊艳四座。仅用了半个多月的时间,10万台英伟达Hopper GPU便被迅速集成到这一超级计算系统中。而就在两个月前,马斯克还亲自透露了Colossus的存在,称其为世界上最强大的AI训练系统。如今,马斯克再次宣布振奋人心的消息:Colossus集群即将扩展到20万张H100/H200显卡,这无疑是AI计算领域的一次重大飞跃。
ServeTheHome发布的一条15分钟视频详细揭示了Colossus的庐山真面目。据该媒体报道,Colossus的基本构建单元是Supermicro液冷机架,每个机架包含八台4U服务器,总计64个英伟达H100 GPU。这些机架以八台为一组排列,形成包含512个GPU的小型集群,并通过高效的网络连接构成更大规模的系统。值得注意的是,Colossus采用了英伟达Spectrum-X以太网提供网络传输支持,这一创新设计使得系统在网络性能上达到了前所未有的高度。
Supermicro 4U通用GPU系统以其卓越的液冷技术和设备可维护性赢得了广泛赞誉。这一系统被巧妙地放置在托盘上,无需移出机架即可进行维护。1U机架分流器为每个系统引入冷却液并排出温热液体,而快速断开装置则使得液冷系统可以迅速移除,极大地方便了维护工作。在SC23展示的原型中,Supermicro为四个Broadcom PCIe交换机设计了定制液冷模块,这一创新设计使得Supermicro系统遥遥领先于其他同类产品。
Colossus的网络系统同样令人瞩目。每条光纤连接速率高达400GbE,是常见1GbE网络速率的400倍。每台GPU计算服务器拥有9条这样的连接,总带宽达到约3.6Tbps。这一带宽水平甚至超过了2021年初顶级Intel Xeon服务器处理器所能处理的连接总量。xAI为GPU和集群的其余部分分别配置了独立的网络,以确保数据传输的高效性和准确性。英伟达BlueField-3 SuperNIC和Spectrum-X网络的应用更是为数据传输提供了强有力的保障。
除了GPU的RDMA网络外,Colossus的CPU也配备了400GbE连接,但采用了完全不同的交换结构。这一设计使得Colossus不仅具备高速集群网络,还拥有低速网络用于管理接口和环境设备,从而确保了整个系统的稳定运行。Colossus目前正在用于训练xAI的Grok,并为X Premium订阅用户提供聊天机器人功能,其强大的计算能力和创新设计无疑将为AI领域的发展注入新的活力。