Apache火花MapReduce (SIMR)

2014年1月1日在工程的博客

分享这篇文章

ApacheHadoop集成一直是Apache火花和的一个关键目标纱用户一直能够运行火花在纱。然而,到目前为止,它一直比较努力在Hadoop上运行的火花MapReducev1集群,即集群没有纱安装。通常,用户必须获得许可安装火花/ Scala的某些子集机器上,这一过程可能耗时。输入在MapReduce SIMR(火花)已经与发布Apache火花0.8.1。

SIMR允许任何人访问一个Hadoop MapReduce v1集群运行引发的。用户可以直接运行引发的Hadoop MapReduce v1没有任何管理权限,没有火花或Scala安装在任何节点。唯一的要求是HDFS访问和MapReduce v1。SIMR是开源的bob下载地址Apache许可和由砖和加州大学伯克利分校的联合开发AMPLab。

基本的想法是,用户可以下载SIMR包(3个文件)相匹配Hadoop集群并立即开始使用火花。SIMR包括互动引发壳,并允许用户使用shell支持集群的计算能力。这是一个简单的/ simr——壳:

运行一个火花程序只需要捆绑它及其依赖关系通过SIMR塞在一个瓶子和启动工作。SIMR使用下面的命令行语法运行作业:

。/ simr jar_file main_class参数

SIMR简单地启动一个MapReduce工作所需的的地图名额,并确保火花/ Scala和你的工作被运往这些节点。然后指定一个映射器作为主人和火花司机里面运行。在其余的映射器发射火花执行人将执行任务代表司机。瞧,你的火花的工作是运行在MapReduce的集群。

SIMR允许用户与驱动程序交互。例如,用户可以输入到火花壳牌和交互式地看到它的输出。这样的工作方式是,SIMR中继服务器运行在主映射器和继电器客户机机器上,SIMR推出。任何来自客户机的输入和输出之间来回传递给驱动程序的客户端和主映射器。

所有这些工作,SIMR使得大量使用HDFS。主mapper当选领导人选举通过编写HDFS和挑选HDFS的映射器,第一次写。同样,内部的执行人推出其他URL映射器发现司机的从HDFS通过阅读从一个特定的文件。因此,SIMR使用MapReduce和HDFS集群管理器。

SIMR并不打算用于生产模式,而是让用户浏览和使用火花在适当的资源管理器运行之前,如纱,便,或独立模式。MapReduce 2(纱)当然可以使用现有的用户火花在纱解决方案,或探索其他火花部署选项。

我们希望SIMR将让用户尝试火花没有任何沉重的操作负担。朝着这个目标,我们有预构建的几个不同版本的Hadoop的SIMR二进制文件。请继续,试一试,让我们知道如果你有任何的反馈。

SIMR资源:

免费试着砖

开始

看到所有工程的博客的帖子