配置构建流媒体批大小砖

限制输入率为结构化流查询有助于保持一致的批量大小和防止大批量导致泄漏和层叠micro-batch处理延迟。

砖结构提供了相同的选项来控制流批处理大小为三角洲湖和自动加载程序。

限制输入与maxFilesPerTrigger率

设置maxFilesPerTrigger(或cloudFiles.maxFilesPerTrigger自动加载程序)指定一个上限的数量在每个micro-batch文件处理。三角洲湖和自动加载器默认是1000。(注意,这个选项也出现在Apache引发其他文件来源,没有默认马克斯。)

限制输入与maxBytesPerTrigger率

设置maxBytesPerTrigger(或cloudFiles.maxBytesPerTrigger自动加载程序)集的“软马克斯”在每个micro-batch处理的数据量。这意味着一批过程大约这个过程的数据量,可能超过极限为了使流查询前进情况下的最小输入单位超过这个极限。没有默认的设置。

例如,如果您指定一个字节字符串等10克限制每个microbatch 10 GB 3 GB的数据和文件,砖过程microbatch 12 GB。

设置多个输入率

如果你使用maxBytesPerTrigger结合maxFilesPerTrigger,micro-batch过程数据,直到达到的下限maxFilesPerTriggermaxBytesPerTrigger

限制输入率其他结构化流源

流源如Apache卡夫卡都有自定义输入限制,如maxOffsetsPerTrigger。更多细节,请参阅在砖处理流数据来源