创建一个集群

请注意

这些指令是更新UI创建集群。切换到传统集群创建UI,点击用户界面预览在页面的顶部创建集群和切换设置。对于遗留UI文档,看看配置集群。比较新和遗留的集群类型,明白了集群UI变化和集群访问模式。

本文解释了可用的配置选项,当你创建和编辑数据砖集群。它着重于创建和编辑集群使用UI。其他方法,请参阅集群CLI,集群API 2.0,砖起程拓殖的提供者。

集群创建用户界面允许您选择集群配置细节,包括:

的集群政策
的访问模式控制与数据交互时使用的安全特性
的运行时版本
的集群工人和司机的节点类型

访问集群创建接口

使用用户界面创建一个集群,您必须在数据科学与工程或机器学习persona-based环境。如果你没有,你可以使用角色切换器。

然后你可以:

点击计算在侧边栏创建计算在计算页面。
点击新>集群在侧边栏。

请注意

您还可以使用砖起程拓殖提供者创建一个集群。

集群政策

集群政策是一组规则用于限制用户可用的配置选项时创建一个集群。集群政策acl控制特定的用户和组可以访问某些政策。

默认情况下,所有用户都可以访问个人计算* * * *政策,让他们轻松地创建单机计算资源。如果你看不到个人计算政策作为一个选项创建一个集群时,那么你还没有得到政策。请联系您的系统管理员请求访问个人计算政策或一个适当的政策。

显示配置集群政策,选择一个集群的政策政策下拉。

集群访问模式是什么?

的访问模式下拉已经取代了安全模式下拉。访问模式标准如下:

访问模式下拉	对用户可见	统一目录支持	支持的语言
单用户	总是	是的	Python, SQL, Scala, R
共享	总是(保费计划要求)	是的	Python(砖运行时的11.1及以上),SQL
任何隔离共享	管理员可以隐藏这个集群类型执行用户隔离在管理控制台中。还看到一个相关帐户级别设置为任何隔离共享集群。	没有	Python, SQL, Scala, R
自定义	此选项只会显示为现有的集群没有访问模式。如果创建一个集群与传统集群模式,例如标准或高并发、砖显示了该值的访问模式,当你使用新的UI。这个值不是一个选项用于创建新集群。	没有	Python, SQL, Scala, R

重要的

访问模式集群API不支持。

砖的运行时版本的

砖运行时核心组件的集合上运行您的集群。所有砖运行时版本包括Apache火花和添加组件和更新,提高可用性、性能和安全性。有关详细信息,请参见砖运行时。

砖提供了几种类型的运行时和几个版本的运行时类型。您选择了集群的运行时使用砖的运行时版本的下拉当您创建或编辑一个集群。

集群节点类型

一个集群由一个驱动节点和零个或多个工作节点。你可以选择单独的云提供商为司机和工人节点实例类型,尽管默认情况下司机节点使用相同的实例类型工作节点。不同家庭的实例类型适合不同的用例,如内存密集型或计算密集型工作负载。

司机节点

司机节点维护状态信息的笔记本电脑连接到集群。司机节点还维护SparkContext,解释所有的命令你在集群上运行从一个笔记本和一个图书馆,并运行Apache主坐标的火花引发执行人。

司机节点类型的默认值是一样的工人节点类型。你可以选择一个更大的驱动节点类型和更多的内存,如果你正计划收集()大量的数据从引发工人和分析他们在笔记本上。

提示

因为司机节点维护的所有状态信息的笔记本电脑,确保分离未使用的笔记本从司机节点。

工作者节点

砖工节点运行正常运转所需的火花执行者和其他服务集群。当你分发工作负载与火花,所有的分布式处理发生在工作节点。砖一个人均执行器节点运行。因此,执行者和工人是交替使用的砖结构。

提示

火花运行工作,你至少需要一个工作节点。如果集群的工人为零,你可以运行non-Spark命令司机节点上,但火花命令将失败。

工作者节点IP地址

砖发射的工人每个节点有两个私有IP地址。节点的主要私人IP地址的主机砖内部交通。二次使用的私有IP地址是火花容器实现网内集群通信。这个模型允许砖提供多个集群之间的隔离在同一个工作区。

GPU实例类型

对于需求的高性能的计算有挑战性的任务,像那些与深度学习,砖支持集群加速的图形处理单元(gpu)。有关更多信息,请参见GPU-enabled集群。

AWS引力子实例类型

砖支持集群AWS引力子处理器。基于arm的AWS引力子实例设计的AWS提供更好的价格性能比较当代基于x86的实例。看到AWS Graviton-enabled集群。

集群规模和自动定量

当你创建一个砖集群,可以为集群提供一个固定数量的工人或提供的最小和最大数量的工人集群。

当你提供固定大小的集群,砖确保集群有指定数量的工人。当你为工人的数量,提供一系列砖选择适当数量的工人需要运行你的工作。这被称为自动定量。

与自动定量、动态砖是重新分配人员占你的工作的特点。某些部位的管道可能比其他人更计算要求,和砖自动添加额外的工人在这阶段的工作(并删除他们当他们不再需要)。

自动定量使它更容易实现集群利用率高,因为你不需要提供集群匹配工作负载。这尤其适用于负载的需求随时间变化(如每天探索过程中数据集),但它也能适用于一次性短工作负载的配置需求是未知的。自动定量因此提供了两个优点:

工作负载可以运行得更快而constant-sized under-provisioned集群。
自动定量集群静态大小的集群相比可以降低整体成本。

根据集群的常数大小和工作负载,自动定量给你其中的一个或两个同时受益。集群规模可以低于最小数量的工人时选择的云提供商终止实例。在这种情况下,砖不断重试重新供应实例为了维持最低的工人数量。

请注意

自动定量是不可用的spark-submit就业机会。

如何自动定量的行为

尺度从最小到最大2步骤。
集群可以缩小,即使不是闲置,通过观察洗牌文件状态。
基于当前节点的比例尺度。
工作群,尺度下如果集群充分利用过去40秒。
通用的集群,尺度下如果集群充分利用过去150秒。
的spark.databricks.aggressiveWindowDownS火花在几秒钟内配置属性指定集群频率使缩小规模的决定。持续增加的值会导致一个集群规模更慢。最大值是600。

启用和配置自动定量

允许砖自动调整您的集群,启用自动定量的集群和提供的最小和最大范围的工人。

启用自动定量。
- 通用的集群,在集群上创建和编辑页面,选择启用自动定量复选框的自动驾驶仪的选择箱:
- 集群工作——在集群上创建和编辑页面,选择启用自动定量复选框的自动驾驶仪的选择箱:
配置min和max工人。
当集群运行时,集群的详细页面显示分配工人的数量。可以比较的数量分配工人与工人配置并根据需要做出调整。

重要的

如果您正在使用一个实例池:

确定集群的大小要求是小于或等于最小数量的空闲实例在游泳池里。如果是较大的,集群启动时间将相当于一个集群,不使用池。
确保最大的集群大小小于或等于最大容量的池。如果是较大的,集群创建将会失败。

自动定量的例子

如果你重新配置静态集群是一个自动定量集群,砖立即调整集群的大小在最小和最大范围内,然后开始自动定量。作为一个例子,下表显示具有一定的初始大小的集群会怎样如果你重新配置集群自动定量之间的5和10个节点。

初始大小	重新配置后尺寸
6	6
12	10
3	5

自动定量本地存储

如果你不想分配一个固定数量的EBS卷在创建集群时,使用自动定量本地存储。自动定量本地存储,数据砖监视器上可用的空闲磁盘空间集群的火花的工人。如果一个工人开始在磁盘上运行过低,砖自动高度新EBS卷的工人之前耗尽磁盘空间。EBS卷附加到一个极限5 TB的总磁盘空间的每个实例(包括实例的本地存储)。

配置自动定量储存、选择启用自动定量本地存储。

EBS卷附加到一个实例只分离时返回给AWS实例。EBS卷,永远不会脱离只要是一个实例运行集群的一部分。缩减EBS用法,砖建议使用这个特性在集群配置AWS引力子实例类型或自动终止。

请注意

砖使用吞吐量的优化硬盘(死神)来扩展一个实例的本地存储。的默认AWS容量限制这些数量是20 TiB。为了避免触及这个极限,管理员应该请求增加这个极限根据自己的使用需求。

本地磁盘加密

预览

这个特性是在公共预览。

一些实例类型用于在本地运行集群可能附加的磁盘。砖可能洗牌数据或临时数据存储在这些本地连接的磁盘。确保所有的数据是加密的存储类型,包括改组数据暂时存储在集群的本地磁盘,您可以启用本地磁盘加密。

重要的

你的工作负载可能会更慢,因为阅读和写作加密数据对性能的影响,从本地卷。

当启用本地磁盘加密时,砖在本地生成一个加密密钥是独一无二的每个集群节点,并用于加密所有数据存储在本地磁盘。关键是当地的范围到每个集群节点集群节点本身和被摧毁。在其一生中,加密和解密的关键驻留在内存中,加密存储在磁盘上。

启用本地磁盘加密,你必须使用集群API 2.0。在集群创建或编辑设置:

             {“enable_local_disk_encryption”:真正的}
            

看到创建和编辑在集群API参考如何调用这些API的例子。

下面是一个示例集群的创建,使本地磁盘加密:

             {“cluster_name”:“my-cluster”,“spark_version”:“7.3.x-scala2.12”,“node_type_id”:“r3.xlarge”,“enable_local_disk_encryption”:真正的,“spark_conf”:{“spark.speculation”:真正的},“num_workers”:25}
            

AWS的配置

当您配置一个集群的AWS实例可以选择可用性区域,马克斯现货价格,EBS卷类型。这些设置下高级选项切换的实例选项卡。

可用性区域

此设置允许您指定的可用性区域(AZ)你想要使用集群。默认情况下,这个设置是设置为汽车,AZ自动选择基于在工作区中可用的ip子网。Auto-AZ重试其他可用性区域如果AWS返回错误能力不足。

选择一个特定AZ集群主要是有用的,如果您的组织购买了保留实例在特定的可用性区域。阅读更多关于AWS可用性区域。

现货实例

您可以指定是否使用现货实例和马克斯现货价格时使用启动实例的比例相应的随需应变的现货价格。默认情况下,马克斯价格是随需应变的100%价格。看到AWS现货价格。

EBS卷

本节描述默认EBS卷设置工人节点,如何添加洗牌卷,以及如何配置一个集群这砖自动分配EBS卷。

配置EBS卷,单击实例在集群配置选项卡,并选择一个选项EBS卷类型下拉列表。

默认EBS卷

砖规定EBS卷为每个职工节点如下:

根卷30 GB加密EBS实例使用的主机操作系统和砖内部服务。
一个150 GB的加密EBS容器所使用的根卷引发工人。这个主机火花服务日志。
(HIPAA) 75 GB加密EBS工人日志卷存储日志数据砖内部服务。

添加改组EBS卷

添加洗牌卷,选择通用SSD在EBS卷类型下拉列表。

默认情况下,火花洗牌输出到本地磁盘。例如类型没有本地磁盘,或者如果你想增加你的火花洗牌存储空间,您可以指定额外的EBS卷。这是特别有用的防止磁盘空间的错误当您运行火花产生大洗牌的工作输出。

砖加密这些EBS卷的随需应变和现货实例。阅读更多关于AWS EBS卷。

可选加密砖与customer-managed EBS卷的关键

可选地,您可以加密集群EBS卷customer-managed键。

看到Customer-managed键工作区存储。

AWS EBS限制

确保你的AWS EBS限制高到足以满足运行时要求所有工人在所有集群。对于信息默认EBS限制以及如何改变它们,看到的亚马逊弹性块存储(EBS)的限制。

AWS EBS SSD卷类型

你可以选择gp2或gp3 AWS EBS SSD卷类型。要做到这一点,看到的管理SSD存储。砖建议您切换到gp3 gp2相比,节省成本。技术信息gp2 gp3、明白了亚马逊EBS卷类型。