宣布Apache Spark 1.4
今天,我很兴奋地宣布Apache Spark 1.4的全面可用性!Spark 1.4引入了SparkR,一个针对数据科学家的R API。它还发展了Spark的DataFrame API,增加了大量新功能。Spark 1.3中首次引入的ML管道API源自alpha组件。最后,Spark Streaming和Core添加了可视化和监控来帮助生产调试。我们将在未来几周发布深入的文章,介绍Spark的新功能。在这里,我将简要地概述这个版本中的一些主要主题和功能。
SparkR在Spark中运行
Spark 1.4引入Spark的R API以及Spark自2012年添加PySpark以来的第一个新语言API。SparkR是基于Spark的并行数据帧抽象.用户可以从“本地”R数据帧或任何Spark数据源(如Hive、HDFS、Parquet或JSON)创建SparkR dataframe。SparkR DataFrames支持所有Spark DataFrame操作,包括聚合、过滤、分组、汇总统计和其他分析功能。它们还支持混合SQL查询,以及在dataframe和dataframe之间转换查询结果。由于SparkR在底层使用Spark的并行引擎,操作可以利用多核或多台机器,并且可以扩展到比独立R程序大得多的数据大小。
人<h2>窗口功能而且其他数据框架改进</h2>这释放增加了窗口功能来火花SQL而且在Spark的DataFrame库。窗口功能是受欢迎的为数据分析师而且允许用户来计算统计数据在窗口范围。<精准医疗>val w=Window.partitionBy(“名字”).orderBy (" id ")df.select (总和(“价格”)。在(w.rangeBetween (Long.MinValue2)),avg(“价格”)。在(w.rowsBetween (0,4)))
此外,我们还为DataFrames实现了许多新特性,包括丰富的支持统计与数学函数(随机数据生成、描述性统计和相关性以及列联表),以及处理缺失数据的功能。
为了使Dataframe操作快速执行,此版本还发布了项目钨这是一个广泛的性能倡议,将成为Spark即将发布的1.5版本的中心主题。Spark 1.4增加了对序列化程序内存使用的改进,以及支持快速二进制聚合的选项。
ML管道从alpha毕业
火花了机器学习(ML)管道APISpark 1.2。管道支持生产ML工作负载,包括许多步骤,例如数据预处理、特征提取和转换、模型拟合和验证阶段。管道在1.3和1.4版本中添加了许多组件,在Spark 1.4中,它们正式从alpha组件中毕业,这意味着API将会稳定地向前发展。作为毕业版的一部分,这个版本使Python API与Java和Scala接口齐名。管道还添加了各种新的特性转换器,如RegexTokenizer
,OneHotEncoder
,VectorAssembler
,并且现在可以在管道API中使用新的算法,如带弹性网的线性模型和树模型。
跨堆栈的可视化和监视
生产Spark程序可能很复杂,包含许多不同阶段的长工作流。Spark 1.4增加了可视化调试和监控工具,以了解Spark应用程序的运行时行为。应用程序时间轴查看器描述正在运行的程序中各个阶段和任务的完成情况。Spark 1.4还公开了与物理执行指标直接相关的底层计算图(或“DAG”)的可视化表示。Spark流增加了对数据流的可视化监控,以持续跟踪延迟和吞吐量。最后,Spark SQL的JDBC服务器添加了自己的监视UI来列出和跟踪用户提交的查询的进度。
这篇文章只触及了Spark 1.4中所有新特性的表面。请继续关注Databricks博客,在那里我们将撰写关于此版本中每个主要特性的文章。
要下载Spark 1.4,请转到Apache Spark下载页面。有关此版本中的主要补丁列表,请访问发布说明.