宣布Apache火花1.1

通过帕特里克·温德尔

2014年9月11日在工程的博客

分享这篇文章

今天我们很高兴宣布释放Apache 1.1火花!Apache火花1.1引入了许多新的特性以及规模和稳定性的改进。这篇文章将介绍一些关键特性的Apache 1.1和火花的优先提供上下文的火花和下一个版本。

在接下来的两周,我们会发布博客文章更多细节在每个主要组件的特性。Apache火花1.1砖已经能够获得客户,今天也被公布Apache火花网站。

成熟的SparkSQL

1.1发布升级引发SQL明显在Apache火花1.0交付的预览。砖,我们迁移所有我们的客户从鲨鱼火花SQL工作负载,与2倍和5倍之间性能改进整个董事会。Apache 1.1增加了一个火花JDBC火花的SQL服务器,允许直接升级的鲨鱼安装一个关键特性依赖于JDBC。我们还开辟了火花的SQL类型系统与公共类型API,允许富裕与第三方数据源的集成。这将为今后集成提供一个扩展点,比如Datastax卡桑德拉的司机。使用这种类型的API,我们增加了交钥匙支持JSON数据加载到火花的原生ShemaRDD格式:

#创建一个JSON在Python中抽样
> > >人= sqlContext.jsonFile (“s3n: / /道路/ /文件…”)
#想象推断模式
> > > people.printSchema ()
#根
# |——年龄:整数(nullable = true)
# |——名称:字符串(nullable = true)

扩大MLlib

火花的机器学习库添加了一些新的算法,包括一个图书馆标准探索性统计如抽样、相关性、卡方测试,随机输入。这使得数据科学家为了避免单节点系统导出数据(R, SciPy等),而是直接操作引发的大规模数据集。优化内部元素提供一个在大多数MLlib 2-5X性能改进算法的。决策树,一个流行的算法,已经被移植到Java和Python。其他几种算法也被添加,包括TF-IDF,通过兰索斯圣言,非负矩阵分解。MLlib的下一版本将推出一个增强的API,用于端到端机器学习管道。

火花流的源和库

火花流扩展图书馆的摄入来源在此版本中添加两个新来源。首先是支持亚马逊运动,托管流处理引擎。火花流还增加了H /源为Apache水槽使用新数据源提供事务性传球给队友从水槽优雅地容忍工人失败的事件。Apache 1.1增加了一组中的第一个在线火花机器学习算法通过引入流线性回归。展望未来,火花流路线图将功能一般可恢复性机制对所有输入源,随着越来越多的连接器。下面的例子显示了线性模型训练使用传入的数据,然后使用一个更新的模型做出预测:

> val流= KafkaUtils.createStream (…)

/ /训练数据流上的线性模型
> = new StreamingLinearRegressionWithSGD val模型()
.setStepSize (0.5)
.setNumIterations (10)
.setInitialWeights (Vectors.dense (…))
.trainOn (DStream。地图(= > createLabeledPoint记录(记录)

/ /使用最新的预测更新模型
> model.latestModel () .predict (myDataset)

表现在火花核心

这个版本提供了许多重要的内部变化引发关注改善大规模的工作负载的性能。Apache火花1.1特性引发洗牌的一个新的实现,一个关键的内部几乎所有使用的原始数据密集型项目。新洗牌改善工作负载的性能超过5 x与极高程度的并行性,早期版本的关键难点的火花。Apache火花1.1还增加了各种其他的改进减少内存使用量和提高性能。

在PySpark优化和功能

disk-spilling修改Apache火花1.0中引入的几个已经被移植到火花的Python运行时扩展。这个版本还增加了支持在Python中读写数据从SequenceFiles Avro和其他Hadoop-based输入格式。PySpark现在支持整个火花的SQL API,包括SchemaRDD的内部支持嵌套类型。

努力提高规模和鲁棒性的火花和PySpark是基于来自社区的反馈以及直接与客户的互动工作负载在砖。下一个版本的火花将继续沿着这一主题,重点提高仪表和调试用户定位性能瓶颈。

这篇文章只触及表面的有趣的特性在Apache 1.1火花。到官方发布说明更多地BOB低频彩了解这个版本,敬请期待听到更多关于Apache火花从1.1砖在接下来的日子里!

免费试着砖

开始

看到所有工程的博客的帖子