Google Cloud 发布了一份关于使用 Gretel 和 BigQuery DataFrames 生成合成数据的实用指南。本指南深入探讨了合成数据生成的各个技术层面,重点关注确保高数据质量、隐私保护以及遵守隐私法规。指南首先介绍如何使用 BigQuery 患者记录表,在第 1 部分对数据进行去标识化处理,然后在第 2 部分生成合成数据并将其保存回 BigQuery。本指南还涵盖了其他重要方面,例如安装和配置 Gretel 和 BigQuery DataFrames 工具,以及使用 Gretel Transform v2 对个人身份信息 (PII) 进行去标识化处理。此外,指南还演示了如何使用 Gretel 的 Navigator Fine Tuning (NavFT) 通过微调数据集上的预训练模型来生成高质量的特定领域合成数据。本指南还包含代码示例以及有关如何将 BigQuery 与 Gretel 结合使用的技巧。通过遵循本指南,用户可以充分利用合成数据来增强其数据科学、分析和 AI 开发工作流程,同时确保数据的隐私和合规性。