弹性分布式数据集
回到术语表5 rdd的使用原因
- 你需要在数据集上进行低级的转换,动作和控制;
- 您的数据是非结构化的,例如媒体流或文本流;
- 您希望使用函数式编程结构来操作数据,而不是特定于领域的表达式;
- 您不关心在按名称或列处理或访问数据属性时施加模式,例如柱状格式;而且
- 对于结构化和半结构化数据,您可以放弃使用dataframe和数据集提供的一些优化和性能好处。
Apache Spark 2.0中的rdd会发生什么?
rdd被降级为二等公民了吗?它们被弃用了吗?答案是响亮的“不”!更重要的是,您可以通过简单的API方法调用在DataFrame或Dataset和rdd之间无缝切换,并且DataFrame和数据集是构建在rdd之上的。额外的资源
回到术语表