Google Cloud 宣布将其 Cloud HPC Toolkit 更名为 Cluster Toolkit,将其范围扩展到涵盖 AI/ML 工作负载。该工具包旨在简化 Google Cloud 上高性能计算环境的创建和管理。

这一变化反映了 Cluster Toolkit 在从科学和技术计算到 AI/ML 应用的各个领域中的广泛采用。

通过简化集群设置和部署,Cluster Toolkit 使用户能够专注于其工作负载,而不是基础架构管理。它还通过支持 Slurm、GKE 和 Batch 等多个调度程序,为各种计算任务提供灵活性。

Cluster Toolkit 的主要优势包括:

* 轻松部署和管理集群

* HPC 和 AI/ML 工作负载的快速入门选项

* 集成 Google Cloud 最佳实践

* 定期更新和新功能

* 开源可访问性

Cluster Toolkit 中的一些新功能包括:

* A3 Mega Blueprint:用于部署准备训练大型语言模型 (LLM) 和其他 AI/ML 工作负载的 A3 Mega VM 集群。

* HPC VM 映像:预装了流行 HPC 工具和库的 VM 映像。

* Slurm-gcp v6:Slurm-gcp 解决方案的最新版本,可在 Google Cloud 上提供无缝的 Slurm 工作负载运行体验。

强烈建议更新本地克隆和命令名称,以避免混淆。

要开始使用 Cluster Toolkit,请从其 GitHub 代码库中选择一个易于使用的 HPC 和 AI/ML 蓝图,并使用它来设置集群。他们还提供各种资源来帮助您入门,包括文档、快速入门和视频。