跳转到主要内容
工程的博客

使用sparklyr砖

2017年5月25日 工程的博客

分享这篇文章

试试这款笔记本在砖与所有指令的解释在这篇文章中笔记本

2016年9月,RStudio宣布sparklyr,一个新的R接口Apache火花。sparklyr界面引发遵循流行dplyr语法。在砖,我们提供最好的地方运行Apache火花,所有的应用程序和软件包由火花支持的所有语言。sparklyr除了引发的生态系统不仅补充SparkR也扩展了火花的新用户和社区。

今天,我们很高兴地宣布sparklyr可以无缝地使用砖集群运行Apache的火花与Scala 2.11 2.2或更高版本。在这篇文章中,我们向您展示如何安装和配置sparklyr砖。我们也介绍一些最新的改进砖R的笔记本。

清洁R名称空间

当我们释放R笔记本2015年,我们SparkR集成到笔记本:SparkR包是进口的默认名称空间,火花和SQL上下文对象初始化和配置。成千上万的用户已经运行R和火花代码在笔记本。我们了解到,他们中的一些人使用我们的笔记本电脑作为一种方便的方式为单节点R数据分析。对于这些用户,预装SparkR函数蒙面几个函数与其他流行的包,尤其是dplyr。

提高用户希望使用R笔记本的经验为单节点分析和新sparklyr用户从火花2.2开始,我们没有进口SparkR默认了。单节点R数据科学感兴趣的用户可以发布单节点集群拥有大量实例和舒适运行现有的单节点分析在干净R名称空间。

的用户希望使用SparkR,SparkSession对象仍是初始化并准备对进口SparkR后使用。

sparklyr在砖

我们与我们的朋友在RStudio让sparklyr无缝砖集群的工作。与sparklyr 0.5.5版开始,有一个新的sparklyr连接方法:。当调用spark_connect(方法=“砖”)在一个砖R的笔记本,sparklyr将连接到笔记本的火花集群。作为这个集群完全托管,您不需要指定任何其他信息,如版本,SPARK_HOME等等。

安装sparklyr

您可以容易地安装sparklyr凹口:

install.packages (“sparklyr”)

配置sparklyr连接

配置sparklyr砖不能简单的连接。

库(sparklyr)sc

使用sparklyr API

设置sparklyr连接之后,您可以使用sparklyr api。你可以导入和把sparklyr与dplyr或MLlib。您还可以使用sparklyr扩展。请注意,如果扩展包包括第三方jar,您可能需要安装这些jar在你的工作空间。

库(dplyr)iris_tbl %变异(Sepal_Width =圆(Sepal_Width *2)/2)% > %group_by(物种,Sepal_Width) % > %总结(count = n (),Sepal_Length =意味着(Sepal_Length),方差= sd (Sepal_Length)) % > %收集图书馆(ggplot2)ggplot(iris_summaryaes (Sepal_Width, Sepal_Length,颜色=物种))+geom_line(大小=1.2)+geom_errorbar(aes (ymin = Sepal_Length -方差,ymax = Sepal_Length +方差),宽度=0.05)+geom_text (aes(标签=数),vjust = -0.2hjust =1.2颜色=“黑色”)+主题(legend.position =“顶级”)

使用SparkR和sparklyr在一起

我们发现SparkR和sparklyr互补的。您可以使用相邻的包在一个笔记本或工作。这样做可以导入SparkR随着砖sparklyr笔记本。SparkR连接预配置的笔记本,导入包之后,就可以开始使用SparkR API。同时,记住的一些功能SparkR dplyr面具的函数。

库(SparkR)以下对象戴面具的“包:dplyr”:安排,之间的合并,收集,包含、计数、cume_distdense_rank,desc,截然不同的解释,过滤器,第一个group_by,相交滞后,去年、铅、变异、n、n_distinct ntile,重命名,percent_rank row_number sample_frac,选择,sql,总而言之,联盟

如果你进口SparkR dplyr进口后,您可以参考函数dplyr通过使用完全限定的名称,例如,dplyr:安排()。类似地,如果您导入后dplyr SparkR SparkR中的函数由dplyr蒙面。

或者,您可以选择性地分离的两个包如果你不需要它。

分离(“包:dplyr”)

结论

我们不断改善砖R笔记本作为最好的地方让他们执行可再生的R数据分析,是否与Apache火花或单节点分布式数据计算利用现有丰富的包R的生态系统。

我们展示了一些简单的步骤,你现在可以无缝地使用sparklyr砖。你可以试着在我们的社区版砖运行时β3.0包括最新发布候选版本构建Apache 2.2火花。

免费试着砖
看到所有工程的博客的帖子