故障排除创建工作区

概述

以下部分描述在工作区中创建和配置错误如何修复错误。大多数问题适用于工作区创建使用账户控制台账户API,异常。

请注意

本文描述的过程账户的E2版本砖平台bob体育客户端下载。所有新砖帐户和大多数现有的帐户现在E2。如果你不确定该帐户类型,请联系您的砖的代表。

重要的

这篇文章提到了这个词数据平面,这是计算层砖平台。bob体育客户端下载在本文的上下文中,平面是指经典数据平面在AWS帐户。相比之下,serverless飞机数据支持serverless SQL仓库在砖AWS帐户运行。欲了解BOB低频彩更多,请看Serverless计算

一般的错误

最大数量的vpc

如果你得到一个错误消息,提到vpc的最大数量,提交服务限制增加请求vpc的数量允许在该地区。这个错误通常只发生如果你使用Databricks-managed VPC,不是customer-managed VPC。

最大数量的VPC端点

如果你得到一个错误消息,提到VPC端点的最大数量,提交服务限制增加请求网关VPC端点的数量允许在该地区。这个错误通常只发生如果你使用Databricks-managed VPC,不是customer-managed VPC。

最大数量的地址

如果你得到一个错误消息,提到地址的最大数量,提交服务限制增加请求VPC弹性IP地址允许的地区。这个错误通常只发生如果你使用Databricks-managed VPC,不是customer-managed VPC。

未授权来执行该操作

如果你得到一个错误,你未被授权执行这个操作,检查你的我的角色有所有必要的政策,如中定义我的角色的文章

存储配置错误消息

畸形的要求:失败的存储配置验证检查

如果你得到一个错误消息,提到存储配置验证检查失败,你的S3 bucket权限不正确设置。遵循本文中的步骤为工作区中创建一个S3 bucket部署以确保S3 bucket的权限是正确的。

证书配置错误消息

畸形的要求:没有凭据配置验证检查

列表的权限检查错误消息指出你的问题的可能原因。

  • 如果证书配置验证失败少于十权限检查,很可能你我的政策是失踪的那些特定的权限。从这篇文章复制正确的策略为工作区部署创建了我的角色

  • 如果证书配置验证失败10或更多的检查,不过更有可能的是,我的信任关系的角色是不正确设置。确认客户的信任关系的角色是根据指令设置正确为工作区部署创建了我的角色

如果你的政策和信任关系似乎是正确的,还要检查以下几点:

  • 确认你是凭证对象包括正确的作用。

  • 确认你是否有企业级服务控制策略(scp)否认了AssumeRole行动或否认EC2 / VPC访问。如果你不确定,问你对scp的AWS管理员。

网络配置

子网已经在使用由另一个网络

一个子网使用错误通常看起来像下面的:

MALFORMED_REQUEST:畸形的参数:subnet_id subnet-xxxxxxxx1已经使用另一个网络,subnet_id subnet-xxxxxxxx2已经使用另一个网络。

这意味着你有一个砖使用相同的子网的网络配置。解决,做以下之一:

  • 删除之前的配置。如果您使用账户API,使用删除网络配置API。您还可以使用账户控制台删除配置。

  • 如果之前的配置是不使用,您可以使用之前的配置为您的新工作区。

  • 如果运行网络配置已经在使用的工作区,创建新的子网和网络配置为您的新工作区。

注意,如果先前尝试工作区创建失败,相关配置组件不会自动删除。

在设置任何网络配置错误,但错误出现在工作区中创建

网络配置可能试图部署一个工作区后显示错误,但是当你设置它显示没有错误。这是因为砖只执行基本的验证对象在创建网络。例如,它检查独特的子网,独特的安全组,和失踪的字段。

最有意义的网络配置验证只发生在您尝试创建一个新的工作区与新的网络配置。如果有错误工作区部署期间,密切关注网络验证错误消息的细节。

一个新的集群不响应或“数据平面网络配置”事件日志错误

看起来像一个工作区部署成功后,您可能会注意到,你的第一个测试集群不回应。大约20 - 30分钟后,检查你的集群事件日志。你可能会看到类似的错误消息:

数据平面网络配置错误。请确认您的数据平面的网络配置正确。错误信息:节点守护进程在600000毫秒平超时…

这个消息表明路由或防火墙是不正确的。砖要求新集群的EC2实例,但遇到了一个长的时间延迟等待EC2实例引导和连接到控制飞机。集群管理器终止实例和报告这个错误。

你的网络配置必须允许集群节点实例成功连接到砖控制飞机。速度比使用一个集群故障诊断技术,可以将一个EC2实例部署到一个工作区子网和典型的网络故障排除步骤数控,,远程登录,traceroute等等。每个地区的继电器CNAMEcustomer-managed VPC的文章。构件存储,确保有一个成功的网络路径S3。

访问域和ip的地区必需的数据平面地址。区域端点,明白了配置区域端点(推荐)。下面的例子使用AWS地区一来就:

#验证访问web应用程序数控-zv ireland.cloud.www.neidfyre.com443年#验证访问安全集群连接继电器数控-zv tunnel.eu -西方- 1. cloud.www.neidfyre.com443年#验证S3全球和区域的访问数控-zv s3.amazonaws.com443年数控-zv s3.eu -西方- 1. amazonaws.com443年#验证STS全球和区域的访问数控-zv sts.amazonaws.com443年数控-zv sts.eu -西方- 1. amazonaws.com443年#验证区域运动的访问数控-zv kinesis.eu -西方- 1. amazonaws.com443年

如果这些都返回正确,网络可以正确配置,但可能会有另一个问题如果您正在使用一个防火墙。防火墙可能深度数据包检测,SSL检验,或别的东西导致砖命令失败。使用一个EC2实例砖子网,试试以下:

curl - x - h得到“授权:无记名<标记>”\https:// <工作空间名称> .cloud.www.neidfyre.com . . / api / 2.0 /集群/ spark-versions

取代<标记>用你自己的个人访问令牌和对您的工作空间中使用正确的URL。看到令牌管理API

如果这个请求失败,尝试- k选择与你请求删除SSL验证。如果这个工作的- k选项,那么防火墙导致SSL证书的问题。

看看SSL证书使用以下和替换的域名控制平面的web应用程序域你的地区:

openssl s_client -showcerts连接oregon.cloud.www.neidfyre.com: 443

这个命令显示了返回代码和数据砖证书。如果它返回一个错误,这是一个迹象,表明你的防火墙配置,必须固定。

请注意,SSL问题不是一个网络层问题。查看流量防火墙不会显示这些SSL问题。看着源和目的地的请求将正常工作。

一个工作区似乎工作但其网络配置状态警告

确保你可以开始一个集群,运行一个数据的工作,而你没有DBFS_DOWNMETASTORE_DOWN显示在你的集群事件日志。如果没有这种集群事件日志中的错误警告状态不一定是一个问题。

对于一个新的工作空间,有许多砖试图检查的事情。如果你不做一个简单的路由像工作区子网→NAT网关→网络网关,然后砖不能确认您的网络是否正确。在这种情况下,砖上显示一个警告的网络配置。

检查子网路由表错误

在集群事件日志,你可以看到这样的错误:

子网:路由表ID rtb-xxxxxxxx用于ID subnet-yyyyyyyyy不见了默认路由的子网直接所有流量nat-zzzzzzzzzzz NAT网关。

这个错误可以指出一个问题如果你要部署一个简单的砖工作区配置。

如果你做你自己的出口设置,如路由通过防火墙通过交通门户枢纽轮辐的方式(可选),这个错误也不一定是有意义的。

另一个潜在的这个错误的原因是你注册一个NAT子网的砖子网的集群。从列表中移除NAT子网的砖工作区子网并重新创建工作区。

不添加你的NAT子网的网络配置子网

不添加你的NAT子网的砖工作区子网。NAT为NAT网关和子网是并不打算作为一个子网砖集群节点的部署。创建网络配置时,只列出两个子网节点用于砖。

问题用你metastore或集群事件日志包括METASTORE_DOWN事件

如果你的工作区似乎和您可以设置集群,但你有METASTORE_DOWN事件在你的集群事件日志,或者如果你的metastore似乎并不工作,确认如果你使用一个Web应用程序防火墙(WAF)像鱿鱼代理。集群成员必须连接到几个WAF服务,不工作。

集群开始错误:无法启动火花容器实例

你可能会看到一个集群日志错误,如:

集群开始错误:无法启动火花容器实例…例外:不能添加容器…与地址....超时1例外后尝试

集群日志错误可能是因为实例无法使用STS进入根S3 bucket。这通常发生当你实现漏出保护,使用VPC锁定通信端点,或者添加一个防火墙。

修复,下列之一:

获得更多关于错误的信息,调用decode-authorization-messageAWS CLI命令。详情,请参阅AWS文章decode-authorization-message。命令的样子:

aws sts decode-authorization-message——编码信息

你可以看到这个错误如果你建立了一个VPC端点(VPCE)不同的安全组STS VPCE工作区。你可以更新安全组,让资源在每一个安全组交谈或者把STS VPCE在同一子网安全组的工作空间。

集群节点需要使用STS使用客户访问根S3 bucket S3政策。网络路径必须用于AWS STS从砖集群节点的服务。

安全组不能更新最新的规则

您可能会看到一个集群日志错误,如:

安全组ID sg-xxxx不能更新最新安全组规则

更新我的符合我们的角色我的角色的文章。在某些情况下,资源AuthorizeSecurityGroupEgress和类似的行动可以有逗号分隔的值。更新这些单独的资源而不是一个资源:

正确的

“行动”:(“ec2: AuthorizeSecurityGroupEgress”,“ec2: AuthorizeSecurityGroupIngress”,“ec2: RevokeSecurityGroupEgress”,“ec2: RevokeSecurityGroupIngress”),“资源”:(“攻击:aws: ec2: us-east-1:444:安全组/ sg-xxxx”,“攻击:aws: ec2: us-east-1:444:安全组/ sg-yyyy”,“攻击:aws: ec2: us-east-1:444:安全组/ sg-zzzz”),

不正确的

“资源”:(“攻击:aws: ec2: us-east-1:444:安全组/ sg-xxxx sg-yyyy, sg-zzzz”),

如果你有网络设置问题,考虑使用Databricks-managed VPC

如果你有网络设置的问题,你可以选择创建工作区Databricks-managed VPC而不是customer-managed VPC。

重要的

你必须选择是否提供customer-managed VPC当创建工作区。你不能改变这个设置后您成功创建工作区。

切换工作空间使用Databricks-managed VPC失败,你必须使用一个不同的cross-account我角色:

  1. cross-account我角色篇文章。

  2. 选择并复制策略的标签砖VPC

  3. 使用这一政策工作区创建使用帐户控制台工作区创建使用帐户API

    • 账户控制台在网络配置选择器,选择Databricks-managed

    • 账户的API,小心不包括network_id元素,例如:

      {“workspace_name”:“<工作空间名称>”,“deployment_name”:“< deployment-name >”,“aws_region”:“< aws-region >”,“credentials_id”:“< credentials-id >”,“storage_configuration_id”:“< storage-configuration-id >”}

诊断与AWS可达性分析仪VPC网络问题

AWS的可达性分析仪配置分析工具可用于测试资源来源和目的地在VPC资源。你可以找到你的AWS控制台VPC可达性分析

可达性分析,你可以旋转测试机砖没有登录的子网。您需要添加源作为你的EC2实例和目的地砖控制平面的IP地址和端口。你可以找到屏蔽组件测试连接。有关更多信息,请参见什么是可达性分析

账户API特定错误消息

以下错误可能从一个帐户API请求返回创建工作区。

畸形的要求:无效<设置>在HTTP请求体

的JSON请求主体是格式不正确的。在这个错误消息,<设置>是指凭证,存储配置,或网络。确认所有的特殊字符都逃脱了正确的URL或者使用REST API客户机应用程序例如邮差。

畸形的要求:无效<设置>在身体

的JSON请求主体是格式不正确的。在这个错误消息,<设置>是指凭证,存储配置,或网络。确认所有的特殊字符都逃脱了正确的URL或者使用REST API客户机应用程序例如邮差。