Google Cloud 发布了一份指南,介绍如何处理 429“资源耗尽”错误,尤其是在使用大型语言模型 (LLM) 时。该文章强调了管理资源消耗以确保流畅用户体验的重要性,因为 LLM 需要大量的计算资源。它提出了三个关键策略:

1. **退避和重试:**实施指数退避和重试逻辑来处理资源耗尽或 API 不可用。等待时间会随着每次重试呈指数级增长,直到过载的系统恢复。

2. **动态共享配额:**Google Cloud 通过在发出请求的用户之间动态分配可用容量来管理某些模型的资源分配。这提高了效率并减少了延迟。

3. **预配置吞吐量:**此服务允许您在 Vertex AI 上为生成式 AI 模型预留专用容量,从而确保即使在高峰需求期间也能实现可预测的性能。

该文章强调了将退避/重试机制与动态共享配额相结合的重要性,尤其是在请求量和令牌大小增加时。还提到了其他选项,例如消费者配额覆盖和预配置吞吐量,以提高 LLM 应用程序的弹性。它鼓励使用 GitHub 上的 Vertex AI 示例或利用 Google Cloud 的初学者指南、快速入门或入门包来构建生成式 AI。