按需网络研讨会和FAQ:并行化R代码使用Apache火花
8月15日,数据科学中心举办了一个研讨会——生活并行化R代码使用Apache火花——砖”侯赛因Falaki。这次研讨会的介绍SparkR概念、体系结构和引入一系列新api的一部分SparkR Apache火花2。x,提供数据科学家和统计学家与新功能发布他们现有的计算集群在火花。
火花2.0的发布,后续版本中,R API正式支持分布式数据上执行用户代码。这主要是通过一个家庭的应用()函数。
DSC研讨会系列:并行化R代码使用Apache®引发™从蒂姆Matteson在Vimeo。
如果你错过了会议,你现在可以把它仔细的研究幻灯片。同时,我们演示了两个R笔记本:
如果你想免费砖”bob体育亚洲版统一的分析平台bob体育客户端下载并尝试R笔记本,你可以访问在这里免费试用。
到最后,我们举行了一个Q & a,下面是所有的问题和答案。
如果我可以使用R上的火花,我为什么需要一个单独的ML图书馆似乎有限吗?
虽然可以实现各种功能使用apply()函数,有许多需要分布式优化实现的算法。例子包括广义线性模型或基于树模型。对于这些用例,您可以使用SparkR毫升的功能。
关于火花。拉普兰人: Is necessary to explicitly load the libraries to the workers, and, to "push" shared variables? Something likeclusterEvalQ
和clusterExport
在并行R包?
是的,你需要显式地加载库工人。至于变量,你不一定需要“推”给工人。这工作很好如果变量是小SparkR关闭捕获很容易照顾他们。建议将辅助数据直接工人(使用数据平面)如果他们大。
每个工人在火花拉普兰人工作在原始列表的一个分区或整个原始列表吗?之间的主要区别是什么拉普兰人
和有斑纹的
旁边一个工作列表和其他作品dataframe ?
- 当使用
spark.lapply ()
每个工人将操作一个值的输入列表。* spark.lapply ()
船舶参数的工人在控制飞机。然而,有斑纹的()
和新闻出版总署()
依靠火花的数据平面。
如何确定哪些工人工作在哪些数据?的哪一部分数据工人每个与他们关闭吗?
当使用有斑纹的()
你不能控制这工人被处理数据的一部分。然而,随着新闻出版总署()
你可以确保每个工人处理所有数据关联到一个特定的关键。
可以新闻出版总署()/斑纹()
用于功能或任务训练一个模型吗?
如果训练过程可以实现并行或有办法结合部分结果(来自不同的工人)到最终模型,您可以使用斑纹()/新闻出版总署()
对模型的训练。
你能给一个例子,什么时候有斑纹的()
会有用吗?
当使用无关的数据分组的简单转换,可以使用有斑纹的()
或dapplyCollect ()
。
这些工人的一部分,微软R服务器或火花二进制文件的一部分吗?
不。SparkR是一个开源项目bob下载地址的一部分,Apache火花。
在spark.lapply ()
,我们能不指向的网络路径.libPath ()
所以我们不必install.packages()在每个节点上?
你可以。
工人包丢失时,它从一个已经进口下载包的司机或凹口镜吗?
您需要显式地在工人安装第三方包。
可以共享笔记本你刚才所示这个研讨会?
是的,请参见上面的链接(笔记本1和笔记本2)的职位。
我们只可以使用SparkR砖平台?bob体育客户端下载或者我们可以使用它在RStudio吗?
你也可以在其他平台上使用SparkR。bob体育客户端下载
如果我们有一个大数据集在15 ~ 1600万,你推荐lappy,哪个函数有斑纹的()
或新闻出版总署()
吗?
不要使用spark.lapply ()
分发数据。首先,并行化你的数据SparkDataFrame,
然后使用有斑纹的()
或新闻出版总署()
这取决于你的用例。
SparkR可以用于分布式预测得分的记录使用一个模型?
是的。你可以模型对象分发给所有员工(例如通过持久化到磁盘和从磁盘读),然后你就可以使用斑纹()/新闻出版总署()
分数数据并行模型。
结果dataframe实例存储/在哪里居住是并行处理的结果吗?它是分布在集群或由主人的记忆?
如果你使用dapplyCollect () / gapplyCollect ()
,结果是作为当地的返回data.frame
对象。否则,当使用斑纹()/新闻出版总署()
,结果是一个分布式对象存储在所有的工人。
有斑纹的()
(不像dapplyCollect ()
)将延迟执行,对吧?
是的,有斑纹的()
和新闻出版总署()
是懒惰。