最佳实践DBFS和统一目录
统一目录介绍一些新配置和方法比DBFS数据治理完全不同的概念。本文概述了一些最佳实践在处理外部位置和DBFS统一目录。
砖建议不要使用DBFS和安装云对象存储对于大多数用例在统一Catalog-enabled砖工作区。本文描述了几个场景中,您应该使用安装云对象存储。注意,砖不建议使用DBFS根结合统一目录,除非你必须迁移文件或数据存储到统一目录。
DBFS用于统一Catalog-enabled工作区吗?
的DBFS根是默认位置用于存储文件与在砖工作区中执行的操作,包括创建管理workspace-scoped中的表hive_metastore
。对表执行的动作hive_metastore
使用遗留数据访问模式,其中可能包括数据和存储凭证由DBFS管理。
单用户访问模式DBFS是如何工作的?
集群配置了单用户访问模式DBFS完全访问,包括在DBFS根和所有文件安装数据。DBFS根和挂载在这个访问模式,使其成为首选毫升的工作负载需要访问统一编目数据集。
砖推荐使用的服务主体与计划工作和单用户访问模式的生产工作负载需要访问数据由DBFS和统一目录管理。
不要使用DBFS和统一目录外部位置
统一目录保护访问数据在外部位置通过使用完整的云URI路径确定资助对象存储目录管理。DBFS坐骑使用一种完全不同的数据访问模式,完全绕过统一目录。砖建议你不重用云之间的对象存储卷DBFS坐骑和加州大学外部卷。
安全的统一Catalog-managed存储
每个目录metastore统一有一个对象存储账户由砖帐户管理员配置。统一目录使用这个位置来存储所有的数据和元数据统一Catalog-managed表。
一个存储账户用于统一目录metastore应该:
全民创建新目录。
有一个自定义身份政策为统一定义目录。
只有可以统一目录。
只能使用身份访问访问政策为统一创建目录。