火花SQL
回到术语表什么是Apache Spark SQL?
Spark SQL为Spark带来了对SQL的本地支持,并简化了查询存储在rdd (Spark的分布式数据集)和外部数据源中的数据的过程。Spark SQL方便地模糊了rdd和关系表之间的界限。统一这些强大的抽象使开发人员可以很容易地将查询外部数据的SQL命令与复杂的分析混合在一起,所有这些都在一个应用程序中。具体来说,Spark SQL将允许开发人员:- 从Parquet文件和Hive表导入关系数据
- 对导入的数据和现有rdd运行SQL查询
- 轻松地将rdd写入Hive表或Parquet文件
额外的资源
回到术语表