创建集群和SQL仓库与统一目录访问
这篇文章展示了如何创建一个Databricks集群或SQL仓库,可以访问Unity Catalog中的数据。
SQL仓库用于运行Databricks SQL工作负载,例如查询、仪表板和可视化。SQL仓库允许您访问Unity Catalog数据,并在默认情况下运行特定于Unity Catalog的命令,只要您的工作空间附加到Unity Catalogmetastore.
集群用于在数据科学与工程和Databricks机器学习基于人物的环境中运行工作负载,使用笔记本电脑或自动化作业。为了创建一个可以访问Unity Catalog的集群,你在其中创建集群的工作空间必须附加到一个Unity Catalog metastore,并且必须使用一个Unity Catalog-capable访问模式(共享或单用户)。
您可以使用这些计算资源中的任何一种来处理Unity Catalog中的数据,这取决于您正在使用的环境:用于Databricks SQL的SQL仓库,或用于数据科学与工程和Databricks机器学习环境的集群。
请注意
有关预览版中可用的集群配置UI更改的信息,请参见创建集群.
什么是集群访问模式?
在Databricks中创建任何集群时,必须选择特定于希望使用集群的工作负载类型的访问模式。Unity Catalog使用特定的集群访问模式来加强安全性。如果集群没有配置支持Unity-Catalog的访问模式之一(共享或单用户),则集群不能访问Unity Catalog中的数据。
所有访问方式如下表所示:
访问模式 |
对用户可见 |
加州大学的支持 |
支持的语言 |
笔记 |
---|---|---|---|---|
单用户 |
总是 |
是的 |
Python, SQL, Scala, R |
只能分配给单个用户使用。从一个角度来阅读,你必须有 |
共享 |
总是(需要保费计划) |
是的 |
Python(适用于Databricks Runtime 11.1及以上版本),SQL |
不支持Init脚本、第三方库和jar。不支持Spark-submit作业。不支持凭据传递。不支持Databricks Runtime ML。 |
未共享隔离 |
管理员可以通过强制用户隔离在管理控制台。 |
没有 |
Python, SQL, Scala, R |
有一个无隔离共享集群的相关帐户级别设置. |
自定义 |
隐藏(适用于所有新集群) |
没有 |
Python, SQL, Scala, R |
此选项仅在现有集群没有指定的访问模式时显示。 |
您可以通过设置集群访问模式为来升级现有集群以满足Unity Catalog的要求单用户或共享.
创建一个可以访问Unity Catalog的集群
集群是为运行笔记本和自动化作业等工作负载而设计的。
要创建一个可以访问Unity Catalog的集群,工作空间必须附加到一个Unity Catalog metastore。
Databricks运行时要求
Unity Catalog需要运行Databricks Runtime 11.1或以上版本的集群。
Databricks Runtime的早期版本支持Unity Catalog的预览版本。在Databricks Runtime早期版本上运行的集群不支持所有Unity Catalog GA特性和功能。
步骤
创建集群。
在侧栏上,使用角色切换器选择数据科学与工程或机器学习。
在侧栏上,单击新建>集群.
选择要使用的访问模式。
对于运行在标准Databricks Runtime版本上的集群,请选择其中之一单用户或共享访问模式连接到Unity目录。如果使用Databricks Runtime for Machine Learning,则必须选择单用户访问模式连接到Unity目录。看到什么是集群访问模式?
选择Databricks运行时11.1或以上版本。
完成你的集群配置并点击创建集群.
当集群可用时,它将能够运行使用Unity Catalog的工作负载。
创建一个可以访问Unity Catalog的SQL仓库
SQL仓库需要在Databricks SQL中运行工作负载,例如查询、仪表板和可视化。默认情况下,所有SQL仓库都可以连接到Unity Catalog。看到创建SQL仓库对于特定的配置选项。