什么是数据库文件系统(DBFS)?

Databricks文件系统(DBFS)是挂载到Databricks工作空间中的分布式文件系统,可在Databricks集群上使用。DBFS是可伸缩对象存储之上的抽象,它将类unix的文件系统调用映射到本地云存储API调用。

请注意

Databricks工作区使用DBFS根卷,默认所有用户均可访问。Databricks建议不要将生产数据存储在此位置。

DBFS可以做什么?

DBFS通过将云对象存储uri映射到相对路径来提供方便。

  • 允许你与对象存储交互使用目录和文件语义,而不是云特定的API命令。

  • 允许你云对象存储位置,这样您就可以将存储凭证映射到Databricks工作区中的路径。

  • 简化了将文件持久化到对象存储的过程,允许在集群终止时安全地删除虚拟机和附加卷存储。

  • 为存储初始化脚本、jar、库和集群初始化配置提供了一个方便的位置。

  • 为使用OSS深度学习库进行模型训练期间创建的检查点文件提供了一个方便的位置。

挂载对象存储

通过将对象存储挂载到DBFS,可以像访问本地文件系统一样访问对象存储中的对象。挂载存储访问存储所需的Hadoop配置,因此不需要在代码中或在集群配置期间指定这些设置。

有关更多信息,请参见在Databricks上挂载云对象存储

DBFS根目录是什么?

DBFS根是Databricks工作空间的默认存储位置,在包含Databricks工作空间的云帐户中作为工作空间创建的一部分提供。有关Databricks文件系统根目录配置和部署的详细信息,请参见配置AWS存储.有关保护DBFS根目录中的数据的最佳实践,请参见使用DBFS根目录的建议

Databricks的一些用户可能会将DBFS根目录称为“DBFS”或“DBFS”;区分DBFS是用于与云对象存储中的数据交互的文件系统,而DBFS根是云对象存储的位置是很重要的。使用DBFS与DBFS根进行交互,但它们是不同的概念,DBFS在DBFS根之外还有许多应用程序。

DBFS根包含许多特殊位置,这些位置作为用户在工作区中执行的各种操作的默认值。详细信息请参见DBFS根目录中默认有哪些目录?

DBFS如何与Unity Catalog一起工作?

Unity Catalog添加了外部位置和托管存储凭证的概念,以帮助组织提供对云对象存储中的数据的最低权限访问。Unity Catalog还为托管表提供了一个新的默认存储位置。一些安全配置提供了对Unity catalog管理的资源和DBFS的直接访问。Databricks整理了一些建议使用DBFS和统一目录