Google Cloud 宣布在 Cloud Run 中添加对 NVIDIA L4 GPU 的支持,目前处于预览阶段。这为 Cloud Run 开发人员开辟了许多新的用例,包括:

* 使用 Google 的开放式 Gemma(2B/7B)模型或 Meta 的 Llama 3(8B)等轻量级开放模型执行实时推理,以构建自定义聊天机器人或动态文档摘要,同时扩展以处理峰值用户流量。

* 提供针对公司品牌量身定制的自定义微调生成式 AI 模型,例如图像生成,并在无人使用时缩减规模以优化成本。

* 加速计算密集型 Cloud Run 服务,例如按需图像识别、视频转码和流媒体以及 3D 渲染。

作为完全托管的平台,Cloud Run 允许您直接在 Google 可扩展的基础设施上运行代码,将容器的灵活性和无服务器的简单性相结合,帮助您提高工作效率。借助 Cloud Run,您可以运行前端和后端服务、批处理作业、部署网站和应用程序以及处理队列处理工作负载,所有这些都无需管理底层基础设施。

同时,许多执行 AI 推理的工作负载,尤其是需要实时处理的应用程序,都需要 GPU 加速才能提供响应迅速的用户体验。借助对 NVIDIA GPU 的支持,您可以使用您选择的 LLM 在几秒钟内按需执行在线 AI 推理。

早期客户对 Cloud Run 和 NVIDIA GPU 的组合感到兴奋。

“Cloud Run 的 GPU 支持改变了我们实时推理应用程序的游戏规则。低冷启动延迟令人印象深刻,允许我们的模型几乎立即提供预测,这对于时间敏感的客户体验至关重要。此外,Cloud Run GPU 在不同负载下始终保持最低的处理延迟,确保我们的生成式 AI 应用程序始终保持响应性和可靠性,并且在不活动期间可以轻松缩减至零。总的来说,Cloud Run GPU 显着增强了我们为最终用户提供快速、准确和高效结果的能力。” - 欧莱雅全球美容技术 AI 主管 Thomas MENARD

总的来说,在 Cloud Run 中添加 NVIDIA GPU 支持对于希望构建实时 AI 推理应用程序的开发人员来说是一个重大进展。此功能将使开发人员能够利用 NVIDIA GPU 的强大功能,同时享受 Cloud Run 的易用性和可扩展性。

要开始使用支持 NVIDIA GPU 的 Cloud Run,请访问 g.co/cloudrun/gpu 注册预览计划。