Google Cloud 增强 AI 超级计算机以实现更快的训练和推理

2024-10-25

Google Cloud

Google Cloud 宣布对其 AI 超级计算机软件层进行重大更新，重点是增强训练和推理性能、提高规模弹性和为 AI 超级计算机资源提供集中式中心。

其中一项关键更新是在 A3 Mega VM 上支持 MaxText，从而能够更快、更高效地训练大型语言模型 (LLM)。这些虚拟机由 NVIDIA H100 Tensor Core GPU 提供支持，与 A3 VM 相比，GPU 间网络带宽提高了 2 倍。

此外，Google Cloud 在 Cloud TPU v5p 上推出了 SparseCore，为嵌入操作提供硬件加速，从而提高了推荐系统的性能。

为了增强 LLM 推理，Google Cloud 还在 JetStream 中引入了 KV 缓存量化和参差不齐的注意力内核，从而将 Cloud TPU v5e 上的推理性能提高了 2 倍。

通过这些更新，Google Cloud 继续通过提供高性能且经济高效的基础设施来赋能组织加速其 AI 之旅。对优化硬件和软件的关注以及全面的资源使 AI 超级计算机成为希望利用 AI 力量的企业的诱人解决方案。

Recommends