Productionizing流媒体工作

按需网络研讨会

这个会议的幻灯片和笔记本在研讨会本身作为附件提供。请启动网络研讨会,悬停在研讨会上,单击(附件),你可以下载所有的材料。

Apache火花流是一种最流行的流处理框架,使可伸缩、高通量、容错实时数据流的流处理。在这次演讲中,我们将关注引发流的以下方面:

火花流动力和最常见的用例:

  • 流数据摄入和ETL -建立一个数据高速公路实时数据吞入仓库的,搜索引擎或数据湖泊。
  • 监控&仪表盘
  • 异常/欺诈检测与在线学习-在溪流和保持模型做预测最新的基于新的数据被观察到。
  • Sessionization——基于用户行为识别会话流

常见的设计模式,摆脱这些用例时避免常见的陷阱和技巧实现这些设计模式:

  • 联想基于时间窗口聚合——如何以及何时使用窗口函数有效地做关联聚合和维护运行数据的统计数据。
  • 全球聚合状态管理——维护当前值的全局状态统计所有的时间。
  • 加入流与静态和动态数据集有效——许多次,你可能不仅想加入多个流也加入历史数据集。历史数据集可以是静态或动态变化。我们将做这些连接时走过的最佳实践。
  • 使用SQL操作流——如何使用SQL火花DStreams效率。
  • 避免常见的陷阱在做在线模型更新
性能优化技术:
  • 如何规模有效地实现高吞吐量。
  • 更好的状态管理与国家修剪。
  • 微调检查点间隔的最佳性能。
  • 写数据汇的有效方法
主持人
  • 普拉卡什Chockalingam

    软件架构师——砖

    普拉卡什目前解决方案架构师在砖和专注于帮助客户建立他们的大数据基础设施基于他的十年经验构建大规模分布式系统和机器学习基础设施的公司包括Netflix和雅虎。加入砖之前,他与Netflix设计和建造他们的建议基础设施服务Netflix用户每天数以百万计的建议。他的兴趣广泛包括分布式系统和机器学习和他还与几个出版物在机器学习和计算机视觉研究在他职业生涯的早期阶段。

  • 丹尼李

    技术传教士——砖

    丹尼·李是一个技术与砖传道者;他是一个实际的数据科学工程师有超过15年经验的网际网路规模发展基础设施,数据平台和分布式系统对本地和云。bob体育客户端下载