全球数据中心建设热潮遭遇AI算力需求瓶颈
近年来,人工智能(AI)技术的迅猛发展推动了全球数据中心建设的高潮。然而,随着AI大模型对算力的需求日益增长,数据中心的建设和升级步伐似乎正面临严峻挑战。据知名科技媒体The Information的最新报道,AI大模型的迭代速度因高质量数据稀缺及数据中心高昂的建设成本而显著放缓,这一趋势可能对整个AI行业和数据中心建设产生深远影响。
数据短缺成为大模型迭代的新难题。OpenAI的内部员工透露,GPT系列模型迭代放缓的一个重要原因是,用于大模型预训练的高质量文本和其他数据类型正在急剧减少。在过去几年中,大型语言模型(LLMs)主要依赖网站、书籍等公开文本数据进行预训练,但这些资源如今已接近枯竭。为了应对数据短缺问题,OpenAI在下一代旗舰模型“Orion”的训练中尝试引入AI生成数据,但这一举措也带来了新的挑战,即新模型可能在某些方面与旧模型产生相似性。
除了数据短缺外,数据中心昂贵的建设和运营成本也是制约AI大模型迭代的重要因素。OpenAI研究员Noam Brown在TEDAI会议上指出,开发更先进的AI模型在经济上可能并不划算。他质疑道:“我们真的需要投入数千亿甚至数万亿美元来训练这些模型吗?有时候,扩展定律也会失效。”随着AI模型对服务器集群规模和功率的要求不断提高,散热问题也日益成为数据中心升级的一大障碍。
在此背景下,特斯拉创始人马斯克在AI领域的布局引发了广泛关注。马斯克旗下的AI初创公司xAI宣布,计划在几个月内建成一个拥有约10万块H100芯片的数据中心,号称“世界上最强大的AI训练集群”。这一数据中心旨在训练更强大的AI模型,并对OpenAI等竞争对手构成了巨大压力。据马斯克在社交平台“X”上宣布,xAI已开始在名为“Supercluster”的集群上进行训练,该集群由10万个液冷英伟达H100 GPU组成,运行于单个远程直接数据存取(RDMA)结构上。
马斯克的这一豪赌基于“缩放定律”,即数据中心规模越大,训练出的AI模型就越好。据悉,“Supercluster”的集群规模是meta等科技巨头现有数据中心规模的数倍。相比之下,OpenAI训练GPT-4模型所需的25000块A100 GPU仅为“Supercluster”的1/20。据英伟达透露,这一数据中心仅用122天就建成,而通常这种规模的GPU集群需要三年时间规划和设计,再额外一年时间才能投入使用。xAI的快速发展引起了OpenAI首席执行官Sam Altman的警惕,据报道,Altman在马斯克宣布“Supercluster”建成后,与微软的基础设施高管发生了争执,担心xAI的发展速度将超过微软。
面对AI算力需求的不断增长和数据中心建设的重重挑战,全球数据中心行业正站在一个新的十字路口。如何在保证经济可行性的同时,解决数据短缺、成本高昂和散热等难题,成为行业亟待解决的关键问题。马斯克的xAI能否凭借“Supercluster”在AI领域后来居上,以及OpenAI等竞争对手将如何应对这一挑战,都将对全球AI行业的发展产生深远影响。