德尔塔湖符合GDPR和CCPA

本文介绍如何在Databricks上使用Delta Lake管理数据湖的通用数据保护条例(GDPR)和加州消费者隐私法(CCPA)合规性。遵从性通常需要点删除,或删除大量数据中的个别记录。Delta Lake通过ACID事务加速大型数据湖中的点删除,允许您根据消费者GDPR或CCPA请求定位和删除个人身份信息(PII)。

为遵从性计划您的数据模型

为遵从性对数据建模是处理PII的一个重要步骤。根据数据消费者的需求,有许多可行的方法。

一种常用的方法是pseudonymization,或个人信息元素的可逆标记化(标识符)转到键(假名),无法从外部识别。通过化名进行合规需要仔细规划,包括以下内容:

  • 以与假名而不是标识符相关联的方式存储信息。

  • 维护严格的策略来访问和使用结合了标识符和假名的数据。

  • 管道或存储策略来删除原始数据。

  • 定位和删除假名和标识符之间的链接的逻辑。

Delta Lake如何简化点删除

三角洲湖有很多数据不内置优化。为了加速点删除,Databricks建议对期间使用的字段使用z轴顺序删除操作。

默认情况下,Delta Lake保留30天的表历史记录,并使其可用“时间旅行”和回滚。您可以使用真空函数删除不再被Delta表引用且超过指定保留阈值的文件,永久删除数据。