阴淮河

数据库软件工程师

    Yin是Databricks公司的软件工程师。他的工作重点是设计和构建Databricks运行时容器环境,及其相关的测试和发布基础设施。在加入Databricks之前,他是俄亥俄州立大学的博士生,导师是张晓东。Yin也是Apache Spark PMC成员。

    过去的会议

    2021年峰会 使用数据库管理数百万个测试

    2021年5月26日下午05:00 PT

    Databricks Runtime是一个执行环境,每天在Databricks中运行数百万个运行数据工程和机器学习工作负载的虚拟机。在Databricks内部,我们每天运行数百万个测试,以确保不同版本的Databricks运行时的质量。由于每天执行大量测试,我们一直面临有效测试结果监控和问题分类的挑战。在这次演讲中,我将分享我们使用Databricks构建自动化测试监控和报告系统的经验。我将介绍如何从CI系统和Bazel构建元数据等不同数据源摄取数据到Delta,以及如何通过Jira分析测试结果并向其所有者报告故障。我还将向您展示这个系统如何使我们能够构建不同类型的报告,从而有效地跟踪对Databricks Runtime所做更改的质量。

    在本节中请注意:
    尹怀,软件工程师,数据

    (daisna21-sessions-od)

    2014年峰会 简单的JSON数据操作在Spark

    2014年6月29日下午05:00 PT

    在这次演讲中,我将介绍Spark中新的JSON支持。有了JSON支持,用户不需要为JSON数据集定义模式。相反,Spark SQL会根据数据自动推断模式。然后,用户可以编写SQL查询来处理这个JSON数据集,就像处理常规表一样,或者无缝地将JSON数据集转换为其他格式(例如Parquet文件)。我还将谈到我们正在努力让用户轻松地处理来自不同来源、不同格式的数据。

    2017年峰会 深入了解Spark SQL的Catalyst Optimizer

    2017年6月5日下午05:00 PT

    Catalyst正在成为Apache Spark最重要的组件之一,因为它支撑着Spark 2.0及后续版本中所有主要的新api,从数据帧(DataFrames)和数据集(Datasets)到流(Streaming)。Catalyst的核心是一个用于操作树的通用库。在这次演讲中,Yin探索了基于这个库的Spark模块化编译器前端,包括查询分析器、优化器和执行计划器。Yin深入介绍了Spark SQL的Catalyst优化器,介绍了Catalyst的核心概念,并演示了开发人员如何扩展它。您将更深入地了解Spark如何分析、优化和计划用户的查询

    BOB低频彩了解更多:

  • 深入了解Spark SQL的Catalyst Optimizer
  • Apache Spark 2.2中的基于成本的优化器
  • Catalyst: Spark和Shark的查询优化框架