使用Azure AD凭据传递简化数据湖访问
2019年10月24日 在bob体育外网下载
Azure Databricks汇集了Apache Spark、Delta Lake和Azure云的精华。密切的合作关系提供了bob体育外网下载与Azure服务的集成,包括Azure基于云的基于角色的访问控制,Azure活动目录(AAD)以及Azure的云存储Azure数据湖存储(ADLS).
即使有了这些紧密的集成,数据访问控制仍然是我们用户面临的挑战。客户希望控制哪些用户可以访问哪些数据,并审计谁正在访问哪些数据。他们想要一个简单的解决方案,与他们现有的控件集成。Azure AD凭据传递是我们对这些要求的解决方案。
Azure数据湖存储Gen2
Azure数据湖存储(ADLS) Gen2今年早些时候开始普遍使用,它正在迅速成为Azure中用于分析消费的数据存储标准。ADLS Gen2支持分层文件系统,扩展Azure Blob存储功能,并提供增强的可管理性、安全性和性能。
分层文件系统为ADLS Gen2提供粒度访问控制。基于角色的访问控制可以用来授予角色分配给顶级资源和POSIX兼容访问控制列表在文件夹和文件级别上允许更细的权限。这些功能允许用户安全地访问他们的数据Azure砖使用Azure Blob文件系统驱动程序,该驱动程序内置于砖运行时。
从Databricks访问ADLS的挑战
即使在Databricks Runtime中使用ABFS驱动程序,客户仍然发现从Azure Databricks集群以安全的方式访问ADLS具有挑战性。从Databricks访问ADLS的主要方法是使用Azure AD服务主体和OAuth 2.0要么直接或通过挂载到DBFS.虽然这仍然是理想的联系方式ETL在交互用例中,它有一些限制:
- 从Azure Databricks集群访问ADLS需要为每个用户设置一个具有委托权限的服务主体。凭证应该存储在秘密.这为Azure AD和Azure Databricks管理员带来了复杂性。
- 将文件系统挂载到DBFS允许Azure Databricks工作空间中的所有用户访问挂载的ADLS帐户。这要求客户根据其存储帐户访问权限为不同的角色和访问控制设置多个Azure Databricks工作区,从而增加了复杂性。
- 在直接评估ADLS或通过挂载点评估ADLS时,Databricks集群上的用户在访问资源时共享相同的标识。这意味着没有审计跟踪哪个用户访问了哪些数据与云原生日志,如存储分析
为了解决这个问题,我们研究了如何通过Azure AD集成扩展我们的无缝单点登录以达到ADLS。
Azure AD凭据传递入门
Azure AD凭据传递允许您使用登录到Azure Databricks时使用的相同Azure AD标识,从Azure Databricks集群无缝地验证到Azure数据湖存储(Gen1和Gen2)。您的数据访问通过您已经设置的ADLS角色和acl进行控制,并且可以在Azure的存储分析中进行分析。
当您为Azure AD凭据直通启用集群时,您在该集群上运行的命令将能够在ADLS中读取和写入数据,而无需为访问存储配置服务主体凭据。要使用凭据直通,只需启用新的“Azure数据湖存储凭据直通”集群配置。
在高并发和标准集群上都可以使用透传功能。目前,高并发集群支持Python和SQL,这些集群隔离了不同用户运行的命令,以确保凭证不会跨不同会话泄露。这允许多个用户共享一个直通集群,并使用自己的身份访问ADLS。
在标准集群上,Python、SQL、Scala和R都被支持,并且通过将集群限制为单个用户来隔离用户。
强大的内置访问控制
Azure AD直通支持ADLS Gen2的RBAC和acl,从而支持强大的数据访问控制。可以通过RBAC将用户授予整个存储帐户,也可以使用acl将用户授予一个文件系统/文件夹/文件。直通功能将确保用户只能访问他们之前在ADLS Gen2中通过Azure AD获得的访问权限。
由于Passthrough标识单个用户,因此只需通过Storage Analytics启用ADLS日志记录,就可以进行审计。所有ADLS访问都将通过Storage Analytic日志中的OAuth用户ID直接绑定到用户。
结论
Azure AD凭据传递提供从Azure Databricks到Azure Data Lake Storage的端到端安全性。此功能提供了对数据的无缝访问控制,无需额外设置。的强大功能可以安全地让分析师、数据科学家和数据工程师使用Databricks统bob体育亚洲版一分析平台bob体育客户端下载同时保证您的数据安全!
相关资源
你如何观察不可观察的事物?在Databricks,我们非常依赖内部服务的详细指标来保持高可用性和可靠性。然而,……
Azure Databricks统bob体育亚洲版一分析平台是Databob体育客户端下载bricks和微软联合产品/工程努力的结果。它可以作为托管的第一方服务在…
Spark + AI峰会2019产品公告和概述。今天观看主题演讲录音!
Spark + AI峰会2019是全球最大的Apache Spark™社区数据和机器学习会议,吸引了近5000名注册数据科学家、工程师、…