哪些数据破坏了我的代码?检查Spark转换

下载幻灯片

Apache Spark正在迅速成为数据工程和数据科学应用的主流大数据处理框架。在Spark中编写大数据应用程序的简单性和内存中处理所获得的速度是这种流行背后的关键因素。然而,帮助开发人员构建和调试Spark应用程序的工具并没有跟上步伐。

例如,一个Spark应用程序可以在一个多达100个执行器和1000个任务的分布式环境中对数据执行多次转换。如果此应用程序由于代码未处理数据中的模式而失败,则只能使用老式工具,如打印语句和日志跟踪,以迭代地缩小根本原因。

本次演讲描述了一种替代方法,为用户提供了一个熟悉的范例来解决这个问题。如果开发人员可以逐级遍历应用程序代码并应用观察点,以便在满足所需条件时检查数据,那么她就可以轻松识别无法处理数据的代码部分。我们描述了实现真实用户体验所需的框架,以及在这个过程中需要克服的挑战。

会议标签:#DevSAIS12



«回来
关于Vinod Nair

维诺德·奈尔(Vinod Nair)负责Pepperdata的产品管理。他在工程和产品管理方面有20多年的经验,对分布式系统和Hadoop特别感兴趣。他曾在电信软件、小企业财务管理和大数据领域工作过。Vinod成功地将精益创业原则和快速迭代应用于产品设计和开发,这深深地影响了他的产品管理方法。