Apache Hadoop火花,:一起工作
经常有人问我们是如何Apache火花适合在Hadoop生态系统,以及一个如何在现有运行火花Hadoop……
我们常常问如何Apache火花适合的Hadoop生态系统,以及一个可以运行的火花在现有的Hadoop集群。这个博客的目的是回答这些问题。
首先,引发旨在增强,而不是取代,Hadoop堆栈。从第一天开始,引发旨在从和读写数据HDFS,以及其他存储系统,如HBase和Amazon的S3。因此,Hadoop用户可以丰富他们的处理能力结合使用Hadoop火花MapReduce,HBase和其他大数据框架。
第二,我们不断致力于使它尽可能容易每个Hadoop用户利用火花的能力。无论你运行Hadoop 1。x或Hadoop 2.0(纱),无论你是否有管理权限配置Hadoop集群不信,有一种方法让你跑的火花!具体来说,有三种方法在Hadoop集群部署火花:独立,纱,SIMR。
独立部署:独立部署可以静态分配资源的全部或一部分机器在Hadoop集群,运行使用Hadoop火花并排,然后用户可以运行任意火花HDFS数据工作。它的简单性使得这许多Hadoop部署选择1。x用户。
Hadoop纱部署:Hadoop的用户已经部署或计划部署Hadoop纱可以简单地运行火花纱,而不需要任何预装或管理访问权限。这允许用户方便地集成火花在Hadoop堆栈和利用引发的全部威力,以及其他组件上运行的火花。
火花在MapReduce (SIMR):Hadoop的用户还没有跑纱,另一个选择,除了独立的部署,是使用SIMR推出火花在MapReduce工作。SIMR,用户可以开始尝试火花并使用它的壳后几分钟内下载它!这极大地降低了屏障的部署,让几乎所有人玩的火花。
使用Hadoop不仅引发互操作,但与其他流行的大数据技术。