弹性分布式数据集

回到术语表
什么是弹性分布式数据集?RDD从一开始就是Spark中主要的面向用户的API。本质上,RDD是数据元素的不可变分布式集合,在集群中的节点之间进行分区,可以与提供转换和操作的低级API并行操作。

5 rdd的使用原因

  1. 你需要在数据集上进行低级的转换,动作和控制;
  2. 您的数据是非结构化的,例如媒体流或文本流;
  3. 您希望使用函数式编程结构来操作数据,而不是特定于领域的表达式;
  4. 您不关心在按名称或列处理或访问数据属性时施加模式,例如柱状格式;而且
  5. 对于结构化和半结构化数据,您可以放弃使用dataframe和数据集提供的一些优化和性能好处。

Apache Spark 2.0中的rdd会发生什么?

rdd被降级为二等公民了吗?它们被弃用了吗?答案是响亮的“不”!更重要的是,您可以通过简单的API方法调用在DataFrame或Dataset和rdd之间无缝切换,并且DataFrame和数据集是构建在rdd之上的。

额外的资源


回到术语表