什么是数据库文件系统(DBFS)?
Databricks文件系统(DBFS)是挂载到Databricks工作空间中的分布式文件系统,可在Databricks集群上使用。DBFS是可伸缩对象存储之上的抽象,它将类unix的文件系统调用映射到本地云存储API调用。
请注意
Databricks工作区使用DBFS根卷,默认所有用户均可访问。Databricks建议不要将生产数据存储在此位置。
挂载对象存储
通过将对象存储挂载到DBFS,可以像访问本地文件系统一样访问对象存储中的对象。挂载存储访问存储所需的Hadoop配置,因此不需要在代码中或在集群配置期间指定这些设置。
有关更多信息,请参见在Databricks上挂载云对象存储.
DBFS根目录是什么?
的DBFS根是Databricks工作空间的默认存储位置,在包含Databricks工作空间的云帐户中作为工作空间创建的一部分提供。有关Databricks文件系统根目录配置和部署的详细信息,请参见配置AWS存储.有关保护DBFS根目录中的数据的最佳实践,请参见使用DBFS根目录的建议.
Databricks的一些用户可能会将DBFS根目录称为“DBFS”或“DBFS”;区分DBFS是用于与云对象存储中的数据交互的文件系统,而DBFS根是云对象存储的位置是很重要的。使用DBFS与DBFS根进行交互,但它们是不同的概念,DBFS在DBFS根之外还有许多应用程序。
DBFS根包含许多特殊位置,这些位置作为用户在工作区中执行的各种操作的默认值。详细信息请参见DBFS根目录中默认有哪些目录?.
DBFS如何与Unity Catalog一起工作?
Unity Catalog添加了外部位置和托管存储凭证的概念,以帮助组织提供对云对象存储中的数据的最低权限访问。Unity Catalog还为托管表提供了一个新的默认存储位置。一些安全配置提供了对Unity catalog管理的资源和DBFS的直接访问。Databricks整理了一些建议使用DBFS和统一目录.