使用自动加载程序和统一目录
自动加载器可以安全地摄取数据从外部位置配置统一目录。了解更BOB低频彩多关于安全地连接存储和统一目录,看看管理外部位置和存储凭证。自动加载程序依赖于结构化流增量处理;建议和限制使用统一的目录和结构化流。
请注意
在砖运行时11.3 LTS及以上的,你可以使用自动加载程序共享或单用户访问模式。在砖运行时的11.2中,您只能使用单用户访问模式。
摄入数据从外部位置由统一目录管理和自动加载程序
您可以使用自动加载程序从任何外部摄取数据位置由统一目录管理。你必须有读文件
外部位置的权限。
默认目录清单模式的支持。使用文件通知模式,您必须配置额外的云凭据连接文件通知和队列服务;看到比较汽车加载程序文件检测模式。
为自动加载程序指定地点统一资源目录
统一目录安全模型假设所有存储位置中引用一个工作负载将由统一目录管理。砖建议总是将检查点和模式演化信息存储在存储单元由统一目录管理。统一目录不允许巢检查点或模式推理与进化表目录下的文件。
例子
下例子假设执行用户所有者权限在目标表和以下配置和资助:
存储位置 |
格兰特 |
---|---|
g: / / autoloader-source / json数据 |
读文件 |
g: / / dev-bucket |
读文件、写文件、创建表 |
使用自动加载器加载一个统一目录管理表
checkpoint_path=“gs: / / dev-bucket / _checkpoint / dev_table”(火花。readStream。格式(“cloudFiles”)。选项(“cloudFiles.format”,“json”)。选项(“cloudFiles.schemaLocation”,checkpoint_path)。负载(“gs: / / autoloader-source / json数据”)。writeStream。选项(“checkpointLocation”,checkpoint_path)。触发(availableNow=真正的)。toTable(“dev_catalog.dev_database.dev_table”))