这个会议的幻灯片和笔记本在研讨会本身作为附件提供。请启动网络研讨会,悬停在研讨会上,单击(附件),你可以下载所有的材料。
Apache火花流是一种最流行的流处理框架,使可伸缩、高通量、容错实时数据流的流处理。在这次演讲中,我们将关注引发流的以下方面:
火花流动力和最常见的用例:
- 流数据摄入和ETL -建立一个数据高速公路实时数据吞入仓库的,搜索引擎或数据湖泊。
- 监控&仪表盘
- 异常/欺诈检测与在线学习-在溪流和保持模型做预测最新的基于新的数据被观察到。
- Sessionization——基于用户行为识别会话流
常见的设计模式,摆脱这些用例时避免常见的陷阱和技巧实现这些设计模式:
- 联想基于时间窗口聚合——如何以及何时使用窗口函数有效地做关联聚合和维护运行数据的统计数据。
- 全球聚合状态管理——维护当前值的全局状态统计所有的时间。
- 加入流与静态和动态数据集有效——许多次,你可能不仅想加入多个流也加入历史数据集。历史数据集可以是静态或动态变化。我们将做这些连接时走过的最佳实践。
- 使用SQL操作流——如何使用SQL火花DStreams效率。
- 避免常见的陷阱在做在线模型更新
性能优化技术:
- 如何规模有效地实现高吞吐量。
- 更好的状态管理与国家修剪。
- 微调检查点间隔的最佳性能。
- 写数据汇的有效方法