pyspark.RDD.localCheckpoint

抽样。 localCheckpoint ( )→没有

马克这个抽样为当地检查点使用火花现有的缓存层。

该方法的用户希望截断抽样血统而跳过昂贵的复制步骤中的物化数据可靠的分布式文件系统。这是用于抽样长血统需要截断定期(例如GraphX)。

当地的检查点牺牲容错性能。特别是,检查点数据写入临时本地存储的执行者,而不是一个可靠的、容错存储。效果,如果在计算一个执行人失败,检查点数据可能不再是可访问的,导致出现不工作的失败。

这不是安全使用动态分配,它消除了执行人连同他们的缓存块。如果你必须使用这两个功能,建议您设置spark.dynamicAllocation.cachedExecutorIdleTimeout高价值。

通过设置检查站的目录中SparkContext.setCheckpointDir ()是不习惯。