Google Cloud 发表了一篇博文,题为“节省 GPU:为您的 GKE 推理工作负载提供更智能的自动扩缩”。文章讨论了运行 LLM 模型推理工作负载的成本可能很高,即使使用最新的开放模型和基础设施也是如此。

一种建议的解决方案是自动扩缩,它可以通过确保您在满足客户需求的同时只为您需要的 AI 加速器付费来帮助优化成本。

文章提供了有关如何在 GKE 上设置推理工作负载的自动扩缩的指南,重点是选择正确的指标。

我发现比较 GPU 上自动扩缩的不同指标特别有趣,例如使用 GPU 利用率与批次大小与队列大小。

我发现使用 GPU 利用率不是自动扩缩 LLM 工作负载的有效指标,因为它可能导致过度配置。另一方面,批次大小和队列大小提供了推理服务器正在经历多少流量的直接指标,这使得它们成为更有效的指标。

总的来说,文章很好地概述了如何优化 GKE 上 LLM 推理工作负载的成本性能。我建议任何希望在 GKE 上部署 LLM 推理工作负载的人都应该阅读这篇文章。