Apache Hadoop火花,:一起工作

通过离子斯托伊卡

2014年1月21日在工程的博客

分享这篇文章

我们常常问如何Apache火花适合的Hadoop生态系统,以及一个可以运行的火花在现有的Hadoop集群。这个博客的目的是回答这些问题。

首先,引发旨在增强,而不是取代,Hadoop堆栈。从第一天开始,引发旨在从和读写数据HDFS,以及其他存储系统,如HBase和Amazon的S3。因此,Hadoop用户可以丰富他们的处理能力结合使用Hadoop火花MapReduce,HBase和其他大数据框架。

第二,我们不断致力于使它尽可能容易每个Hadoop用户利用火花的能力。无论你运行Hadoop 1。x或Hadoop 2.0(纱),无论你是否有管理权限配置Hadoop集群不信,有一种方法让你跑的火花!具体来说,有三种方法在Hadoop集群部署火花:独立,纱,SIMR。

独立部署:独立部署可以静态分配资源的全部或一部分机器在Hadoop集群,运行使用Hadoop火花并排,然后用户可以运行任意火花HDFS数据工作。它的简单性使得这许多Hadoop部署选择1。x用户。

Hadoop纱部署:Hadoop的用户已经部署或计划部署Hadoop纱可以简单地运行火花纱,而不需要任何预装或管理访问权限。这允许用户方便地集成火花在Hadoop堆栈和利用引发的全部威力,以及其他组件上运行的火花。

火花在MapReduce (SIMR):Hadoop的用户还没有跑纱,另一个选择,除了独立的部署,是使用SIMR推出火花在MapReduce工作。SIMR,用户可以开始尝试火花并使用它的壳后几分钟内下载它!这极大地降低了屏障的部署,让几乎所有人玩的火花。

与其他系统的互操作性

使用Hadoop不仅引发互操作,但与其他流行的大数据技术。

Apache蜂巢:通过鲨鱼,火花使Apache蜂巢用户运行他们修改的查询速度要快得多。蜂巢是很受欢迎的数据仓库解决方案运行Hadoop之上,而鲨鱼是一个系统,允许蜂巢框架上运行的火花,而不是Hadoop。因此,鲨鱼可以加速蜂巢查询多达100 x输入数据符合内存时,和10倍时输入数据是存储在磁盘上。
AWS EC2:用户可以很容易地运行火花(鲨鱼)在Amazon的EC2之上使用的脚本火花,或主持版本的火花和鲨鱼在亚马逊弹性MapReduce。
Apache便:火花便之上运行,一个集群管理器系统提供有效的资源隔离在分布式应用程序,包括MPI和Hadoop。便使细粒度的分享火花工作可以动态地利用闲置的资源在集群中在其执行。这导致相当大的性能提升,尤其是对长期运行的火花工作。