Spark DataFrames:结构化数据的简单快速分析

下载幻灯片

这篇文章将提供Spark DataFrame API的技术概述。首先，我们将回顾DataFrame API，并展示如何从各种数据源(如Hive、RDBMS数据库或Avro等结构化文件格式)创建DataFrame。然后，我们将给出操作dataframe的示例用户程序，并指出常见的设计模式。讲座的后半部分将重点介绍dataframe的技术实现，例如使用Spark SQL的Catalyst优化器来智能规划用户程序，以及在Spark核心引擎中使用快速二进制数据结构来大幅提高常见类型操作的性能和内存使用。

«回来

关于迈克尔·阿姆布鲁斯特

Michael Armbrust是Apache Spark的提交者和PMC成员，也是Spark SQL的最初创建者。他目前在Databricks领导设计和构建结构化流和Databricks Delta的团队。他于2013年在加州大学伯克利分校获得博士学位，并由迈克尔·富兰克林、大卫·帕特森和阿曼多·福克斯担任顾问。他的论文专注于构建允许开发人员快速构建可伸缩交互应用程序的系统，并特别定义了规模独立性的概念。他的兴趣广泛包括分布式系统、大规模结构化存储和查询优化。(daisna21-speakers)