比较汽车加载程序文件检测模式

自动加载程序支持两种模式检测新文件:目录清单和文件通知。可以切换文件发现模式在流重启和仍然获得仅一次数据处理担保。

目录列表模式

在目录清单模式下,自动加载程序识别新文件清单输入目录。目录清单模式允许您快速启动自动加载程序流没有任何权限配置除了访问云存储你的数据。

在砖运行时的9.1及以上,自动加载程序可以自动检测文件是否与词法顺序到达,你的云存储和显著减少所需的API调用来检测新文件。看到自动加载程序目录清单模式是什么?为更多的细节。

文件通知模式

文件通知模式利用文件通知和队列服务在你的云基础设施。自动装载器可以自动建立一个事件通知服务和队列服务订阅文件从输入目录。

文件通知模式是更多的性能和可伸缩性大输入目录或大量的文件,但需要额外的云的权限设置。有关更多信息,请参见自动加载程序文件通知模式是什么?

云存储支持的模式

下面列出了这些模式的可用性。

如果你从外部位置或DBFS山迁移到一个联合目录,自动加载程序继续提供只有一次担保。

云存储

目录清单

增量清单

文件的通知

AWS S3

所有版本

砖运行时9.1及以上

所有版本

ADLS代

所有版本

砖运行时9.1及以上

所有版本

GCS

所有版本

砖运行时9.1及以上

砖运行时9.1及以上

Azure Blob存储

所有版本

不支持的

所有版本

ADLS Gen1

砖运行时7.3及以上

不支持的

不支持的

DBFS

所有版本

仅供挂载点

仅供挂载点

统一目录体积

砖运行时13.2及以上

砖运行时13.2及以上

不支持的