sparklyr
砖支持sparklyr在笔记本、作业和RStudio Desktop中。
需求
Databricks在每个运行时发布sparklyr的最新稳定版本。您可以在Databricks R笔记本中使用sparklyr,也可以通过导入已安装的sparklyr版本在Databricks托管的RStudio Server中使用。
在RStudio Desktop中,Databricks Connect允许您从本地机器连接sparklyr到Databricks集群并运行Apache Spark代码。看到使用sparklyr和RStudio Desktop与Databricks连接.
连接sparklyr到Databricks集群
要建立sparklyr连接,可以使用“砖”
如连接方法中的spark_connect ()
.没有附加参数spark_connect ()
是需要的,也不是召唤spark_install ()
因为Spark已经安装在Databricks集群上。
#调用spark_connect()需要先加载sparklyr包。图书馆(sparklyr)#建立一个闪闪发光的连接。sc<-spark_connect(方法=“砖”)
进度条和Spark UI与sparklyr
如果将sparklyr连接对象分配给名为sc
就像上面的例子一样,在每个触发Spark作业的命令之后,您将在笔记本中看到Spark进度条。此外,您还可以单击进度条旁边的链接,查看与指定Spark作业关联的Spark UI。
使用sparklyr
在安装sparklyr并建立连接之后,所有其他sparklyr API都可以正常工作。看到例如笔记本电脑举一些例子。
Sparklyr通常与其他药物一起使用tidyverse包如dplyr.为了您的方便,大多数这些软件包都预先安装在Databricks上。您可以简单地导入它们并开始使用API。
同时使用sparklyr和SparkR
SparkR和sparklyr可以在单个笔记本或工作中一起使用。您可以导入SparkR和sparklyr并使用它的功能。在Databricks笔记本中,SparkR连接是预配置的。
SparkR中的一些函数掩盖了dplyr中的一些函数:
>图书馆(SparkR)的后对象是戴面具的从”包:dplyr”:安排,之间的,合并,收集,包含,数,cume_dist,dense_rank,desc,截然不同的,解释,过滤器,第一个,group_by,相交,滞后,最后的,引领,变异,n,n_distinct,ntile,percent_rank,重命名,row_number,sample_frac,选择,sql,总结,联盟
如果在导入dplyr之后导入SparkR,则可以使用完全限定名引用dplyr中的函数,例如:dplyr:安排()
.类似地,如果在SparkR之后导入dplyr, SparkR中的函数将被dplyr屏蔽。
或者,您可以在不需要时选择性地分离这两个包中的一个。
分离(“包:dplyr”)
另请参阅比较SparkR和sparklyr.
在spark-submit作业中使用sparklyr
您可以在Databricks上运行使用sparklyr的脚本作为spark-submit作业,只需对代码进行少量修改。上面的一些说明不适用于在Databricks上的spark-submit作业中使用sparklyr。特别地,您必须将Spark主URL提供给spark_connect
.有关示例,请参见为R脚本创建并运行一个spark-submit作业.
不支持的功能
Databricks不支持sparklyr方法,如spark_web ()
而且spark_log ()
需要本地浏览器。但由于Spark UI内置在Databricks上,因此您可以轻松地查看Spark的作业和日志。看到集群驱动和工作日志.
有关其他示例,请参见使用R中的数据框架和表.