亚马逊宣布正式推出 Amazon SageMaker Lakehouse,该功能可统一 Amazon Simple Storage Service (Amazon S3) 数据湖和 Amazon Redshift 数据仓库中的数据,帮助您在单个数据副本上构建强大的分析和人工智能与机器学习 (AI/ML) 应用程序。SageMaker Lakehouse 是下一代 Amazon SageMaker 的一部分,这是一个用于数据、分析和 AI 的统一平台,它汇集了广泛采用的 AWS 机器学习和分析功能,并提供用于分析和 AI 的集成体验。

客户希望通过数据做更多的事情。为了加快分析之旅,他们正在选择合适的存储和数据库来存储他们的数据。数据分布在数据湖、数据仓库和不同的应用程序中,从而创建数据孤岛,使其难以访问和利用。这种碎片化导致重复的数据副本和复杂的数据管道,进而增加了组织的成本。此外,客户被迫使用特定的查询引擎和工具,因为数据的存储方式和位置限制了他们的选择。这种限制阻碍了他们按自己喜欢的方式处理数据的能力。最后,不一致的数据访问使客户难以做出明智的业务决策。

SageMaker Lakehouse 通过帮助您统一 Amazon S3 数据湖和 Amazon Redshift 数据仓库中的数据来解决这些挑战。它使您可以灵活地使用与 Apache Iceberg 兼容的所有引擎和工具访问和查询数据。借助 SageMaker Lakehouse,您可以集中定义细粒度的权限并在多个 AWS 服务中强制执行,从而简化数据共享和协作。将数据导入 SageMaker Lakehouse 非常简单。除了从现有数据湖和数据仓库无缝访问数据外,您还可以使用来自 Amazon Aurora、Amazon RDS for MySQL、Amazon DynamoDB 等运营数据库以及 Salesforce 和 SAP 等应用程序的零 ETL。SageMaker Lakehouse 非常适合您的现有环境。

SageMaker Lakehouse 与其他 AWS 服务的集成给我留下了特别深刻的印象。这种集成极大地简化了数据管理和分析,使其更加轻松高效。我相信这项服务对于希望提高其分析和 AI 能力的公司来说将非常宝贵。