谷歌近日正式发布第八代TPU芯片,以“训练-推理分离”架构重新定义AI硬件设计标准。这款专为智能体(Agent)时代打造的芯片,通过物理层面区分训练专用(TPU 8t)与推理专用(TPU 8i)两款产品,在性能、能效和成本控制上实现突破性进展。
推理场景的TPU 8i则聚焦延迟优化,在成本不变的前提下实现服务能力翻倍。芯片内置288GB高带宽内存与384MB片上SRAM,内存容量为前代三倍,大幅减少数据搬运需求。系统层面引入自研Axion CPU架构,通过NUMA隔离优化提升多服务器协同效率。针对混合专家模型(MoE),互连带宽提升至19.2 Tb/s,配合Boardfly架构缩短网络路径长度,新增的片上集体加速引擎(CAE)将全局操作延迟降低至原来的五分之一。
全栈协同优化成为第八代TPU的核心竞争力。谷歌首次将自研Axion CPU与TPU深度整合,根据AI任务特性定制硬件协同方案。能效提升贯穿整个计算链路:从芯片级第四代液冷技术,到数据中心层面的电源动态管理,单位电力算力较五年前提升6倍。开发者生态建设同步推进,新芯片原生支持PyTorch、JAX等主流框架,配合MaxText、Tunix等开源工具,实现从模型训练到部署的全流程优化。
资本市场对谷歌的硬件战略给予积极回应。TPU发布当日,Alphabet股价盘中涨幅达2.2%,显示投资者对AI基础设施升级的认可。尽管英伟达CEO黄仁勋此前在播客中强调“TPU不构成威胁”,认为CUDA生态的广泛覆盖性难以被替代,但谷歌通过垂直整合硬件与软件栈的策略,正在智能体计算领域构建差异化优势。随着Claude、Gemini等顶级模型持续采用TPU架构,AI芯片市场的竞争格局面临新的变量。
