GKE 扩展至 65,000 个节点，支持万亿参数 AI 模型

2024-11-13

Google Cloud

Google Cloud 宣布 Google Kubernetes Engine (GKE) 现在支持多达 65,000 个节点，使其能够处理庞大的万亿参数 AI 模型。随着生成式 AI 的发展，对训练这些模型所需的巨大计算能力的需求也越来越大。GKE 现在提供的规模比其他两家最大的公有云提供商大 10 倍以上，使客户能够缩短模型训练时间或将模型扩展到数万亿个参数。这种扩展还支持在单个集群中运行五个作业，每个作业的规模都与 Google Cloud 先前 LLM 最大训练作业的世界纪录规模相当。Anthropic 等 AI 安全和研究公司等客户对这些发展表示欢迎。从技术上讲，GKE 正在从开源 etcd 分布式键值存储过渡到基于 Spanner（Google 的分布式数据库）的新的、更强大的键值存储。这一变化将为 GKE 用户带来新的可靠性水平，从而改善集群操作的延迟。此外，由于对管理 Kubernetes 控制平面的 GKE 基础架构进行了重大改进，GKE 现在可以显著加快扩展速度。Google Cloud 还保持着对开源的承诺，确保这种规模所需的所有必要优化和改进都是核心开源 Kubernetes 的一部分。

GKE 扩展至 65,000 个节点，支持万亿参数 AI 模型

Recommends