Google Cloud 宣布在 Dataflow 中推出一项新功能,支持通过负载均衡进行自定义来源读取,旨在降低成本并提高效率。对于需要严格监控延迟的流式环境中,扩展工作负载的挑战而言,这是一个备受欢迎的解决方案。

许多现代自动调整策略难以应对导致处理瓶颈和创建积压的热键或热工作器,从而影响数据新鲜度。例如,像 Apache Kafka 这样的流式环境可能会在管道中创建热点。自动调节器可能会尝试在事后使用额外的计算单元来弥补这一点,但这不仅成本高,而且速度也很慢。自动调节器仅在出现累积消息积压后才会做出反应,并且在启动新工作器时会产生开销。

新的负载均衡功能通过更好地分配工作负载和主动减轻不堪重负的工作器的负担来发挥作用。这使得管道能够以更少的资源和更低的延迟推送更多数据。来自 Dataflow 顶级客户的真实用例证明了此功能在降低运营成本和提高管道性能方面的有效性。

例如,一位客户能够将工作器扩展事件减少 75%,从而使 Google Compute Engine 中的每日成本降低 64%,并且积压从约 1 分钟减少到约 10 秒。

此负载均衡功能默认情况下对所有区域中的所有 Dataflow 客户都处于启用状态,因此无需额外配置即可轻松使用。

总之,在 Dataflow 中引入通过负载均衡进行自定义来源读取标志着在提高管道效率和降低成本方面迈出了重要一步,这在速度和效率至关重要的流式环境中尤为重要。