生产注意事项结构化流

本文包含建议配置生产增量处理工作负载与结构化的流媒体数据砖履行延迟和成本要求实时或批处理应用程序。关键概念理解的结构化流在砖可以帮助你避免常见缺陷的扩大体积和速度的数据,从开发到生产。

砖了三角洲的生活表,以减少生产基础设施的复杂性结构化流的工作负载。砖建议使用三角洲生活表新的结构化流管道;看到δ生活是什么表?

请注意

计算伸缩扩展限制了集群大小结构化流工作负载。砖建议使用三角洲表与增强的自动定量直播工作负载。看到增强的自动定量是多少?

使用笔记本电脑进行结构化流工作负载

互动发展,砖笔记本需要你连接你的笔记本电脑集群以手动执行查询。你可以安排砖笔记本从查询故障自动部署和自动恢复使用工作流

你可以想象结构化流查询笔记本在互动发展,或互动监控生产工作负载。你只能想象一个结构化流查询生产如果人类将定期监测笔记本的输出。而触发checkpointLocation参数是可选的,砖作为一个最佳实践建议总是在生产中指定它们。

批量大小和频率控制砖结构的流

结构化流在砖上增强选项帮助控制成本和延迟而流自动加载器和三角洲湖。

有状态的流媒体是什么?

一个有状态结构化流查询需要增量更新中间状态信息,而一个无状态的结构化流只查询跟踪信息这行已经从源到汇处理。

有状态操作包括流媒体聚合流dropDuplicatesstream-stream连接,mapGroupsWithState,flatMapGroupsWithState

有状态所需的中间状态信息结构化流查询会导致意想不到的延迟和生产问题如果没有正确配置。