创建卷
预览
这个特性是在公共预览砖上运行时13.2及以上。
本文介绍的概念卷在统一目录和描述了如何创建卷。
统一目录册是什么?
卷是统一编目对象表示一个逻辑卷的存储在云对象存储位置。卷提供访问的功能,存储、管理和组织文件。虽然表提供治理在表格数据集,卷添加治理non-tabular数据集。您可以使用卷存储和访问任何格式的文件,包括结构化、半结构化和非结构化数据。
有管理的体积是多少?
一个管理卷是一个团结Catalog-governed存储卷中创建包含模式的默认存储位置。管理卷允许创建管理存储处理文件没有外部位置的开销和存储凭证。你不需要指定一个位置创建管理卷时,和所有文件访问的数据量是通过管理路径由统一目录管理。看到路径是用于访问文件卷?。
当你删除一个卷管理,文件存储在本卷也被删除从您的云在30天内租户。
一个外部的体积是多少?
一个外部卷是一个团结Catalog-governed存储卷注册对目录内外部位置使用统一Catalog-governed存储凭证。外部卷允许您添加统一编目数据治理现有云对象存储目录。一些用例外部卷包括以下:
添加治理没有迁移的数据文件。
管理文件由其他系统,必须摄取或访问数据砖。
管理数据由砖必须直接从云访问对象存储的其他系统。
外部卷必须在外部目录位置由统一目录存储凭证。统一目录不管理的生命周期或布局文件在外部卷。当你删除一个外部卷、统一目录不会删除底层数据。
路径是用于访问文件卷?
的路径访问卷是一样的你是否使用Apache火花,SQL, Python,或其他语言和库。这不同于遗留在对象存储文件的访问模式绑定到一个砖工作区。
访问文件的路径在卷使用以下格式:
/卷/ <目录> / <模式> / <体积> / <路径> / <文件- - - - - -的名字>
砖还支持一个可选的dbfs: /
计划使用Apache时火花,所以以下路径也适用:
dbfs:/卷/ <目录> / <模式> / <体积> / <路径> / <文件- - - - - -的名字>
序列/ <目录> / <模式> / <卷>
路径对应于三统一目录与文件相关联的对象名称。这些路径元素是只读的,而不是直接用户可写的,这意味着它是不可能使用文件系统创建或删除这些目录操作。它们被自动管理和保持同步与相应的加州大学的实体。
谁能管理卷特权?
你必须有所有者权限或删除卷卷管理卷特权。统一目录中的每个对象只能有一个主分配作为一个主人,而所有权不级联(也就是说,一个目录的所有者不会自动成为目录的所有对象的所有者),与所有权相关的权利适用于所有对象中包含一个对象。
这意味着,对于统一目录册,以下主体体积可以管理权限:
父目录的所有者。
母公司的所有者模式。
体积的所有者。
虽然每个对象只能有一个主人,砖建议分配所有权的大多数对象在一组,而不是单个用户。初始所有权分配给用户的任何对象创建该对象。看到管理统一编目对象所有权。
创建一个管理卷
您必须创建一个管理卷有以下权限:
资源 |
权限要求 |
---|---|
模式 |
|
目录 |
|
创建一个管理卷,使用以下句法:角度
创建体积<目录>。<模式>。<体积- - - - - -的名字>;
您可以创建一个管理在数据浏览器通过完成以下步骤:
在你的砖工作区,点击数据。
搜索或浏览您想要添加体积的模式并选择它。
单击创建卷按钮。(你必须有足够的特权)。
输入一个名称的体积。
提供一个注释(可选)。
点击创建。
创建一个外部卷
你必须有以下权限创建一个外部卷:
资源 |
权限要求 |
---|---|
外部位置 |
|
模式 |
|
目录 |
|
要创建一个外部卷,指定一个路径在一个外部位置使用下面的语法:
创建外部体积<目录>。<模式>。<外部- - - - - -体积- - - - - -的名字>位置gc: / / < external-location-bucket-path > / <目录>的;
您可以创建一个外部卷在数据浏览器通过完成以下步骤:
在你的砖工作区,点击数据。
搜索或浏览您想要添加体积的模式并选择它。
单击创建卷按钮。(你必须有足够的特权)。
输入一个名称的体积。
选择外部创建卷的位置。
编辑路径,以反映你想要创建的卷的子目录。
提供一个注释(可选)。
点击创建。
减少一个卷
只有具有所有者权限的用户可以删除一个卷。看到谁能管理卷特权?。
使用下面的语法来减少体积:
下降体积如果存在<体积- - - - - -的名字>;
当你管理体积下降,砖在30天内删除底层数据。当你删除一个外部卷,你把体积从统一目录但底层数据在外部位置保持不变。
移动、创建或删除的文件在外部体积
你必须有以下权限,创建或删除的文件存储在卷:
资源 |
权限要求 |
---|---|
体积 |
|
模式 |
|
目录 |
|
您可以使用% fs
和% sh
神奇的命令,砖utitliesfs
命令,如开源命令bob下载地址os.listdir ()
,或者是上传文件体积UI与文件。
保留路径卷
用于访问卷卷介绍下列预留路径:
dbfs: /卷
/卷
请注意
路径也留给这些路径的潜在错误从Apache api和火花dbutils
,包括/卷
,/卷
,/卷
,不管他们之前dbfs: /
。的路径/ dbfs /卷
也保留,但不能用于访问卷。
卷在砖运行时仅支持13.2及以上。砖13.1运行时,下面的行动/卷
路径可能会成功,但可以临时性存储磁盘写入数据附加到计算集群而不是持久化数据统一目录册。
重要的
如果你有预先存在的数据存储在一个保留DBFS根路径,你可以支持文件来获得暂时的访问这些数据将它移动到另一个位置。
限制
以下限制适用:
你不能使用统一编目对象列表
/卷/ <目录名称> / <模式名称>
模式。您必须使用完全限定路径,包括卷名。你不能使用数据浏览器删除文件从卷。
DBFS端点的REST API不支持卷路径。
卷被排除在全球搜索结果砖工作区。
你不能从卷安装JAR库。你不能从卷在集群上安装库单用户访问模式。
你不能指定卷作为集群日志目的地交付。
% shmv
不支持之间移动文件卷。使用dbutils.fs.mv
或% shcp
代替。数据浏览器只显示1000文件/目录中。
Scala支持卷仅限于Apache api和火花
dbutils
。udf和其他Scala IO代码不能使用卷访问数据。你不能创建一个定制的Hadoop文件系统卷,意义不支持如下:
进口org.apache.hadoop.fs.Path瓦尔路径=新路径(“dbfs: /卷/主/违约/测试容积/ file.txt”)瓦尔fs=路径。getFileSystem(sc。hadoopConfiguration)fs。listStatus(路径)