自动加载器常见问题解答

一般询问砖自动加载程序。

并自动加载程序处理文件再次当文件被附加或覆盖?

文件处理,除非完全一次cloudFiles.allowOverwrites启用。如果一个文件附加到或覆盖,砖并不能保证哪个版本的文件处理。砖建议您使用自动加载程序只摄取不变的文件。如果这个不符合您的需求,请联系你的砖的代表。

如果我没有数据文件不断,但在相等的时间间隔,例如,一天一次,我仍然应该使用这个源和有什么好处吗?

在这种情况下,您可以设置一个Trigger.AvailableNow(砖中可用的运行时10.2及以后)结构化流工作,调度运行后预期的文件到达时间。自动加载程序适用与罕见的或频繁的更新。即使最终的更新是非常大的,汽车装载机秤输入大小。自动加载程序的高效的文件发现技术和模式演化能力使汽车装载机增量数据摄入推荐的方法。

如果我改变检查点位置当重启流?

一个检查点位置保持一个流的重要识别信息。有效改变检查点位置意味着你已经放弃了先前的流,开始一个新的流。

我需要事先创建事件通知服务吗?

不。如果你选择文件通知模式和提供所需的权限,自动加载程序可以创建文件通知为您服务。看到自动加载程序文件通知模式是什么?

我如何清理事件通知资源由汽车装载机?

您可以使用云资源管理器列表和拆除资源。您还可以手动删除这些资源使用云提供商的UI或api。

我可以从不同的输入运行多个流查询目录在同一个桶/集装箱吗?

是的,只要他们不是父子目录;例如,prod-logs /和prod-logs /使用/不会工作,因为/使用是一个孩子的目录吗/ prod-logs。

我能使用此功能时现有文件通知我的桶或容器吗?

是的,只要你输入目录不冲突与现有通知前缀(例如,上述父子目录)。

自动加载程序推断模式如何?

DataFrame首先被定义时,自动加载程序列表你的源目录,选择最近的(通过文件修改时间)50或1000 GB的数据文件,并使用这些数据来推断模式。

自动加载器也推断分区列通过检查源目录结构和查找包含的文件路径/ /关键=价值结构。如果源目录结构不一致,例如:

             基地/道路/分区= 1 /日期= 2020-12-31 / file1。json / /不一致,因为日期和分区目录是不同订单基地/道路/日期= 2020-12-31 = 2 / file2 /分区。json / /不一致,因为日期目录丢失= 3 / file3.json基地/道路/分区
            

自动加载程序推断分区列是空的。使用cloudFiles.partitionColumns的显式解析列目录结构。

如何自动加载程序的行为当源文件夹是空的吗?

如果源目录是空的,自动加载程序要求您提供一个模式由于没有数据进行推理。

什么时候自动装卸机推断模式吗?进化后自动每micro-batch吗?

模式推断DataFrame时第一次在您的代码中定义。在每个micro-batch,模式变化动态评估;因此,您不需要担心性能。流重启的时候,拿起进化模式的模式位置并开始执行从推理没有任何开销。

的性能影响摄取数据在使用自动加载程序模式推理?

你应该期望模式推理花几分钟在初始模式推理非常大的源目录。你不应该观察到显著的性能达到否则流执行期间。如果您运行您的代码在一个砖笔记本,状态更新中可以看到,指定当自动加载程序将清单目录抽样和推断你的数据模式。

由于一个错误,一个错误的文件模式彻底改变了我。我应该做回滚一个模式改变?

接触砖支持帮助。