Sameer Agarwal火花提交者和技术领先在数据平台团队在Facebook工作构建分布式系统和数据库跨geo-distbob体育客户端下载ributed集群规模的成千上万的机器。在Facebook之前,Sameer开源Apache火花在砖的团队领导。他收到了来自加州大学伯克利分校博士学位数据库AMPLab BlinkDB他工作,火花的近似查询引擎。
工程机器学习功能是火花在Facebook上最重要的工作之一,作为一种手段,提高每一个预测模型的质量我们已经在生产中。过去一年,我们添加了一些特性在火花核心/ SQL添加一级支持特性注入和特性获得的火花。特性注入是一个重要的先决条件(离线)毫升培训基地功能在哪里注射/ /实验与新特性,与目标改善模型性能随着时间的推移。从查询引擎的角度来看,这可以被认为是一个左外连接之间的基础训练表和功能表,如果天真的实现,可能会非常昂贵。作为这项工作的一部分,我们增加了本地支持编写索引/对齐表火花,其中如果基表中的数据和注入特性可以对齐时写道,加入本身可以廉价地执行。
功能获得是一个计算效率和低延迟的解决方案在子分区的粒度(即删除历史数据。、列或选择映射键),为了有效地这样做在我们的规模,我们添加了一个新的物理编码在兽人(称为FlatMap)允许我们选择性地收获/删除特定地图键(特性),而不执行昂贵的解码、编码和减压/压缩。在这次演讲中,我们将深入探讨火花的优化,评估引擎,数据布局和提交协议和分享我们如何实现这些互补的技术。为此,我们将讨论几个催化剂优化自动重写特性注入/收获查询SQL连接/变换,描述新的兽人物理编码存储功能映射,并讨论如何引发的细节写/提交索引特性表。
程的演讲者:苏和Sameer阿加瓦尔
火花从Facebook作为一个实验开始时,项目还处于早期阶段。火花的吸引力源于它的易用性和一个集成环境运行SQL, MLlib,自定义应用程序。当时使用的系统是少数的人处理少量的数据。然而,我们已经走过了漫长的道路。目前,火花是其中一个主要的SQL引擎在Facebook除了编写定制的批处理应用程序的主系统。这个演讲将介绍如何优化的故事,调整和扩展Apache火花在Facebook上运行10年代成千上万的机器,加工100年代pb的数据,和1000年代所使用数据的科学家、工程师和产品分析师每天。
在这次演讲中,我们将重点关注三个领域:
比例计算:Facebook引发有效和可靠运行在成千上万的异构机器分类(共享存储)集群。
优化核心引擎:我们不断调整、优化,并将功能添加到核心引擎为了最大化每秒完成有用的工作。
扩展用户:我们如何使火花容易使用,和更快的无缝机上调试新用户。
Apache 2.0引发火花的建筑基础结构,统一的高级api,结构化流,和底层性能的组件(比如催化剂优化和钨引擎。此后引发社会贡献者继续建立新的特性和解决众多问题的发布引发2.1和2.2。
继续向前本着这一精神,Apache火花2.3也有了类似的进步,引入新特性和超过1300 JIRA问题的解决。在这次演讲中,我们想与社区分享一些火花2.3特性的突出方面:
Kubernetes调度程序的后端
PySpark性能和增强
连续流处理结构化
数据源v2 api
火花历史服务器性能增强
会话标签:# DevSAIS16
有一个指数级增长的数据被收集并存储。这创造了一个史无前例的处理和分析大量数据的需求。此外,分析师和数据科学家想要快速启用探测的数据分析的结果,而越来越多的应用程序需要实时数据处理发生在附近。
在这次演讲中,我们现在BlinkDB,它使用完全不同的方法,其中查询总是在接近实时处理,不管底层数据集的大小。这是通过不是看着所有的数据,而是作用于底层数据统计的样本。更准确地说,BlinkDB能让用户之间的贸易结果的准确性和时间计算查询。面临的挑战是确保查询结果仍有意义,即使只有一个子集的数据处理。这里我们利用统计机器学习和查询处理的最新进展。使用统计引导,我们可以重新取样的数据并行计算置信区间告诉采样结果的质量。并行计算抽样数据,我们建立在鲨鱼分布式查询引擎,它可以计算每秒数以万计的查询。
这个演讲将首先介绍BlinkDB;然后深入其与鲨鱼的集成和项目背后的数学基础。