读取数据共享使用Databricks-to-Databricks三角洲共享
本文描述了如何读取数据,与你共享使用Databricks-to-Databricks三角洲共享协议,砖管理数据共享的安全连接。与三角洲分享公开分享协议,Databricks-to-Databricks协议不需要证书文件(口令安全性)。
请注意
如果数据已经与你共享使用三角洲共享开放共享协议,明白了读取数据共享使用三角洲共享开放共享。
我如何让我的团队共享数据?
读取数据和笔记本与你共享使用Databricks-to-Databricks协议,你必须是一个支持用户数据砖工作区统一目录。你的团队成员为数据提供程序提供了一个惟一的标识符为砖工作区,和数据提供者使用标识符创建一个安全的共享连接与您的组织。然后共享数据可用的读访问您的工作区,任何更新,数据提供商使共享表、视图和分区在近乎实时的反映在您的工作空间。
请注意
更新共享数据表和视图在近乎实时出现在工作区中。然而,列改变(添加、重命名、删除)可能不会出现在数据浏览器一分钟。同样,新的股票和更新股票(如每股增加新表)缓存一分钟之前用于查看和查询。
读取数据,与你分享:
用户在你的团队发现了分享——容器的表、视图和笔记本电脑,与你共享使用,创建一个共享目录——顶层容器在砖统一目录的所有数据。
用户在您的团队允许或拒绝访问目录和目录内的对象(模式、表、视图)团队的其他成员。
你读的表和视图中的数据被授予访问就像任何其他在砖你只读的表或视图(
选择
)访问。你预览和克隆共享笔记本,只要你有
使用目录
目录上的权限。
权限要求
能列表和视图细节所有供应商和供应商股票,你必须metastore管理员或有使用提供者
特权。其他用户只能访问提供者和股票,他们自己的。
从提供者共享创建一个目录,你必须metastore管理员、用户的CREATE_CATALOG
和使用提供者
统一目录metastore特权,或一个用户CREATE_CATALOG
特权和提供程序对象的所有权。
能够授予只读访问模式(数据库),表和视图目录中创建的共享遵循典型的统一目录权限层次结构。能够查看笔记本在目录中创建的共享要求使用目录
目录上的权限。看到管理模式和表的权限在三角洲共享目录。
查看供应商和股票
开始读的数据与你共享一个数据提供者,您需要知道的名字提供者和分享对象存储在统一编目metastore一旦提供者与你共享数据。
提供者对象代表统一目录metastore、云平台,共享数据的地区组织的与你在一起时的感觉。bob体育客户端下载
共享对象表示提供者的表和视图与你共享。
查看所有与你共享数据的提供者
查看可用的数据提供者列表,您可以使用数据浏览,砖统一目录的CLI或显示供应商
SQL命令在砖砖笔记本或SQL查询编辑器。
权限要求:你必须metastore管理员或有使用提供者
特权。其他用户只能访问提供者和提供者,他们自己的股票。
有关详细信息,请参见查看供应商。
查看供应商详细信息
查看供应商的详细信息,您可以使用数据浏览,砖统一目录的CLI或描述提供者
SQL命令在砖砖笔记本或SQL查询编辑器。
权限要求:你必须是一个metastore管理,使用提供者
特权,或自己的提供者对象。
有关详细信息,请参见查看供应商详细信息。
查看股票
查看供应商的股票与你共享,您可以使用数据浏览,砖统一目录的CLI或显示股票在提供者
SQL命令在砖砖笔记本或SQL查询编辑器。
权限要求:你必须是一个metastore管理,使用提供者
特权,或自己的提供者对象。
有关详细信息,请参见查看股票,提供者已经与你共享。
一个共享的表中访问数据
一个共享的表中读取数据:
特权用户必须创建一个共享的目录,其中包含表。这可能是一个metastore管理,用户的
CREATE_CATALOG
和使用提供者
统一目录metastore特权,或一个用户CREATE_CATALOG
特权和提供程序对象的所有权。用户或用户具有相同的权限必须授予您访问共享表。
您可以访问注册表就像任何其他表目录metastore你团结。
创建一个目录
使数据共享访问您的团队,您必须创建一个共享的目录。创建一个共享目录,您可以使用数据浏览,砖统一编目CLI或SQL命令在砖砖笔记本或SQL查询编辑器。
权限要求:metastore管理,用户的CREATE_CATALOG
和使用提供者
统一目录metastore特权,或一个用户CREATE_CATALOG
特权和提供程序对象的所有权。
请注意
如果共享包含视图,您必须使用一个目录名称不同目录的名称包含在提供者的metastore视图。
在你的砖工作区,点击数据。
在左窗格中,展开三角洲分享菜单并选择和我分享。
在供应商选项卡上,选择供应商。
在股票选项卡,找到并点击分享创建目录分享一行。
输入目录的名称和可选的评论。
点击创建。
运行以下命令在笔记本或砖的SQL查询编辑器。
创建目录(如果不存在]<目录- - - - - -的名字>使用分享<提供者- - - - - -的名字>。<分享- - - - - -的名字>;
砖unity-catalog目录创建——名称<目录名称> / <提供者姓名> /提供者——分享<共享名>
目录创建一个共享目录类型的三角洲共享。您可以查看浏览器目录详细信息页面的数据类型或通过运行描述目录笔记本或砖SQL查询的SQL命令。
δ共享目录可以相同的方式管理定期统一目录metastore目录。您可以查看、更新和删除一个三角洲共享目录使用数据浏览,砖CLI和利用显示目录
,描述目录
,改变目录
,下降目录
SQL命令。
三级名称空间结构三角洲共享目录下创建的股票是一样的一个常规目录统一目录下:catalog.schema.table
。
下表数据共享目录是只读的,这意味着您可以执行读取操作描述
,显示
,选择。
笔记本电脑在一个共享目录可以被任何用户预览和克隆使用目录
在目录上。
管理模式和表的权限在三角洲共享目录
默认情况下,这个目录下的所有数据对象的所有者是一个创造者三角洲共享目录和可以为其中的任何一个管理权限。
向下继承特权,尽管一些工作区可能仍然没有提供继承的遗产安全模型。看到继承模型。任何用户授予选择
目录将有特权选择
特权模式和表的所有特权的目录,除非撤销。你不能授予特权给编写或更新访问共享目录或对象在δ共享目录。
目录所有者可以委托其他用户或组的数据对象的所有权,从而允许用户管理权限和对象生命周期的能力。
详细信息管理数据对象上的特权使用统一目录,看看统一目录管理权限。
查询一个表的历史数据
如果历史是共享的表,您可以查询的表数据的版本或时间戳。需要砖运行时的12.1或以上。
例如:
选择*从疫苗。vaccine_us。vaccine_us_distribution版本作为的3;选择*从疫苗。vaccine_us。vaccine_us_distribution时间戳作为的“2023-01-01”就是;
此外,如果更改数据提要(CDF)启用表,你可以查询它。版本和时间戳都支持:
选择*从table_changes(“vaccine.vaccine_us.vaccine_us_distribution”,0,3);选择*从table_changes(“vaccine.vaccine_us.vaccine_us_distribution”,“2023-01-01”就是,“2022-02-01”就是);
改变数据提要的更多信息,请参阅使用三角洲湖变化数据以砖。
查询一个表使用Apache火花结构化流
如果一个表是与历史,您可以使用它作为火花结构化流的源。需要砖运行时的12.1或以上。
支持选项:
ignoreDeletes
:忽略事务删除数据。ignoreChanges
:如果文件重写处理文档更新源表中的数据修改操作,比如更新
,合并成
,删除
(分区),或覆盖
。不变行仍然可以发出。所以你的下游消费者应该能够处理重复。删除不是下游传播。ignoreChanges
包容ignoreDeletes
。因此,如果您使用ignoreChanges
,你流将不会被删除或更新源表。startingVersion
:从共享表版本。所有表变化从这个版本(包容)将读取流源。startingTimestamp
:从时间戳。所有表更改后承诺或时间戳(包容)将读取流源。例子:“2023-01-0100:00:00.0”
maxFilesPerTrigger
:新文件的数量被认为是在每个micro-batch。maxBytesPerTrigger
:在每个micro-batch被处理的数据量。这个选项设置一个“软马克斯”,这意味着一个批处理过程大约这个过程的数据量,可能超过极限为了使流查询前进情况下的最小输入单位超过这个极限。readChangeFeed
:流读共享表的数据提要的变化。
不支持的选项:
Trigger.availableNow
样品结构流查询
火花。readStream。格式(“deltaSharing”)。选项(“startingVersion”,0)。选项(“ignoreChanges”,真正的)。选项(“maxFilesPerTrigger”,10)。表(“vaccine.vaccine_us.vaccine_us_distribution”)
火花。readStream。格式(“deltaSharing”)\。选项(“startingVersion”,0)\。选项(“ignoreDeletes”,真正的)\。选项(“maxBytesPerTrigger”,10000年)\。表(“vaccine.vaccine_us.vaccine_us_distribution”)
如果更改数据提要(CDF)启用表,你可以流读取CDF。
火花。readStream。格式(“deltaSharing”)。选项(“readChangeFeed”,“真正的”)。表(“vaccine.vaccine_us.vaccine_us_distribution”)
阅读分享观点
预览
这个特性是在公共预览。
请注意
只在Databricks-to-Databricks共享视图共享支持。
阅读分享观点是一样的阅读共享表,这些异常:
计算要求:
如果你的砖账户与提供者的不同,你必须使用一个Serverless SQL仓库查询共享视图。
如果供应商在同一砖帐户,您可以使用任何SQL仓库,也可以使用一个集群使用共享访问模式。
View-on-view限制:
你不能创建视图引用共享视图。
命名要求:
共享目录的目录名称使用包含视图不能与任何供应商目录,其中包含一个表引用的视图。例如,如果共享视图包含在你的测试
目录,和提供者的一个表中引用,这是包含在提供者的观点测试
目录,查询名称空间冲突将导致错误。看到创建一个目录。
历史和流媒体:
你不能查询历史或使用一个视图作为流源。
JDBC / ODBC:
说明本文关注阅读共享数据使用砖用户界面,专门统一目录语法和接口。你也可以查询共享视图使用Apache火花,Python和BI工具如表和权力BI使用砖JDBC / ODBC驱动程序。学习如何使用砖JDBC / ODBC驱动程序的连接,看到的配置数据砖ODBC、JDBC驱动程序。
读共享笔记本
预览和克隆共享笔记本文件,您可以使用数据浏览。
权限要求:目录所有者或用户使用目录
从分享特权时创建的目录。
在你的砖工作区,点击数据。
在左窗格中,展开数据菜单,找到并选择创建的目录的份额。
在其他资产选项卡,您将看到任何共享笔记本文件。
点击共享笔记本文件预览它的名称。
(可选)单击克隆按钮将共享笔记本文件导入到您的工作空间中。
在克隆,对话框中,选择输入新名字,然后选择工作区文件夹你想克隆笔记本文件。
点击克隆。
一旦克隆笔记本,这时会弹出一个对话框让你知道它成功克隆。点击在笔记本上揭示编辑器在对话框在笔记本上把它编辑器。
看到介绍砖笔记本。