问题
默认支持auto-vacuum三角洲生活表。你设置一个增量表管道,但通知真空不是自动运行。
导致
示例配置
在这个例子中δ生活表管道JSON文件,有一个默认的标签标识的配置为默认集群。这还应该包含一个维护标签标识维护集群的配置。
自维护集群配置不存在,真空不自动运行。
AWS
{“集群”:[{“标签”:“默认”,“node_type_id”:“c5.4xlarge”、“driver_node_type_id”:“c5.4xlarge”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻击:aws:…”} } ] }删除
Azure
{“集群”:[{“标签”:“默认”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}}}删除
GCP
{“集群”:[{“标签”:“默认”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}}}删除
解决方案
三角洲的配置维护集群生活表管道JSON文件。
你必须指定集群配置两个不同的类型:
- 默认集群执行所有处理。
- 维护集群在日常运行维护任务。
每个集群使用标号字段标识。
维护集群是负责执行真空和其他维护任务。
AWS
{“集群”:[{“标签”:“默认”,“node_type_id”:“<实例类型>”,“driver_node_type_id”:“<实例类型>”,“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用“:”假“}”,aws_attributes”: {“instance_profile_arn”:“攻击:aws:…”} }, { "label": "maintenance", "aws_attributes": { "instance_profile_arn": "arn:aws:..." } } ] }删除
Azure
{“集群”:[{“标签”:“默认”,“node_type_id”:“Standard_D3_v2”、“driver_node_type_id”:“Standard_D3_v2”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用”:“false”}},{“标签”:“维护”}]}删除
GCP
{“集群”:[{“标签”:“默认”,“node_type_id”:“n1-standard-4”、“driver_node_type_id”:“n1-standard-4”、“num_workers”: 20,“spark_conf”: {“spark.databricks.io.parquet.nativeReader。启用”:“false”}},{“标签”:“维护”}]}删除