马斯克19天组装10万块H100，全球最大AI超算曝光，未来还要翻倍？-天脉网

全球最强大的AI超算Colossus近日再度成为科技界的焦点，这一由xAI与英伟达联手打造的超级计算机不仅规模空前，更在设计上实现了多项创新突破。据最新报道，Colossus已经完成了第一阶段的建设，并全面上线运行，而未来其规模还将进一步扩大一倍。

Colossus位于美国田纳西州孟菲斯，其首次亮相便惊艳四座。仅用了半个多月的时间，10万台英伟达Hopper GPU便被迅速集成到这一超级计算系统中。而就在两个月前，马斯克还亲自透露了Colossus的存在，称其为世界上最强大的AI训练系统。如今，马斯克再次宣布振奋人心的消息：Colossus集群即将扩展到20万张H100/H200显卡，这无疑是AI计算领域的一次重大飞跃。

ServeTheHome发布的一条15分钟视频详细揭示了Colossus的庐山真面目。据该媒体报道，Colossus的基本构建单元是Supermicro液冷机架，每个机架包含八台4U服务器，总计64个英伟达H100 GPU。这些机架以八台为一组排列，形成包含512个GPU的小型集群，并通过高效的网络连接构成更大规模的系统。值得注意的是，Colossus采用了英伟达Spectrum-X以太网提供网络传输支持，这一创新设计使得系统在网络性能上达到了前所未有的高度。

Supermicro 4U通用GPU系统以其卓越的液冷技术和设备可维护性赢得了广泛赞誉。这一系统被巧妙地放置在托盘上，无需移出机架即可进行维护。1U机架分流器为每个系统引入冷却液并排出温热液体，而快速断开装置则使得液冷系统可以迅速移除，极大地方便了维护工作。在SC23展示的原型中，Supermicro为四个Broadcom PCIe交换机设计了定制液冷模块，这一创新设计使得Supermicro系统遥遥领先于其他同类产品。

Colossus的网络系统同样令人瞩目。每条光纤连接速率高达400GbE，是常见1GbE网络速率的400倍。每台GPU计算服务器拥有9条这样的连接，总带宽达到约3.6Tbps。这一带宽水平甚至超过了2021年初顶级Intel Xeon服务器处理器所能处理的连接总量。xAI为GPU和集群的其余部分分别配置了独立的网络，以确保数据传输的高效性和准确性。英伟达BlueField-3 SuperNIC和Spectrum-X网络的应用更是为数据传输提供了强有力的保障。

除了GPU的RDMA网络外，Colossus的CPU也配备了400GbE连接，但采用了完全不同的交换结构。这一设计使得Colossus不仅具备高速集群网络，还拥有低速网络用于管理接口和环境设备，从而确保了整个系统的稳定运行。Colossus目前正在用于训练xAI的Grok，并为X Premium订阅用户提供聊天机器人功能，其强大的计算能力和创新设计无疑将为AI领域的发展注入新的活力。