罗恩·胡

LinkedIn高级软件工程师

    Ron Hu是LinkedIn的高级软件工程师,致力于基于Apache Spark构建大数据分析平台。bob体育客户端下载在加入领英之前,他曾在Teradata、MarkLogic和华为工作,专注于并行数据库系统和搜索引擎。Ron拥有加州大学洛杉矶分校计算机科学博士学位。

    过去的会议

    2021年峰会 在大规模平台上启用推测执行的最佳实践bob体育客户端下载

    2021年5月27日下午03:15太平洋时间

    Apache Spark具有“推测执行”功能,可以处理由于网络、磁盘等环境问题而导致的某个阶段的慢速任务。如果某个阶段某个任务运行缓慢,Spark driver可以在另一台主机上为该任务启动推测任务。在常规任务和它的推测任务之间,Spark系统稍后会从第一个成功完成的任务中获取结果,并杀死较慢的任务。

    当我们第一次在LinkedIn上的一个10K+节点的大型集群上默认为所有Spark应用程序启用投机功能时,我们观察到Spark的投机配置参数的默认值在LinkedIn的批处理作业中不起作用。例如,系统启动了太多徒劳的投机任务(即稍后被杀死的任务)。此外,猜测任务并没有缩短洗牌阶段。为了减少无结果的投机任务,我们试图找出根本原因,增强Spark引擎,并仔细调整投机参数。我们分析了启动的推测任务的数量、有结果的和无结果的推测任务的数量,以及它们对应的cpu-内存资源消耗(以千兆字节-小时为单位)。在大型集群上的多租户环境中,我们能够将平均作业响应时间减少13%,将作业运行时间的标准偏差减少40%,并将总资源消耗降低24%。在这次演讲中,我们将分享我们的经验,使投机执行实现良好的工作运行时间减少,同时保持最小的开销。

    在本节中请注意:
    Venkata Krishnan sowrrajan, LinkedIn的建筑师
    Ron Hu,领英高级软件工程师

    (daisna21-sessions-od)

    2018年峰会 在Apache Spark 2.3中通过直方图估计基数

    2018年6月5日下午05:00 PT

    Apache Spark 2.2附带了一个最先进的基于成本的优化框架,该框架收集并利用各种每列数据统计信息(例如基数、不同值的数量、NULL值、最大/分钟、平均/最大长度等)来提高查询执行计划的质量。在许多实际应用程序中,倾斜的数据分布通常是固有的。为了有效地处理倾斜分布,我们在Apache Spark 2.3中添加了等高直方图。利用可靠的统计数据和直方图可以帮助Spark更好地为现实场景选择最优的查询计划。

    在这次演讲中,我们将深入探讨Spark的基于成本的优化器如何估计每个数据库操作符的基数和大小。具体来说,对于偏分布工作负载(例如TPC-DS),我们将显示直方图对查询计划更改的影响,从而导致性能提高。

    会议标签:#DevSAIS13