跳转到主要内容
工程的博客

火花SQL数据源API:统一数据访问Apache火花的平台bob体育客户端下载

2015年1月9日 工程的博客

分享这篇文章

Lakehouse读取的数据探索为什么lakehouses未来的数据架构和数据仓库的父亲,Bill Inmon。


自《盗梦空间》在Apache 1.0火花,火花SQL的一个最受欢迎的使用一直作为渠道获取数据到火花的平台。bob体育客户端下载早期用户爱火花从现有SQL支持读取数据Apache蜂巢表以及流行的拼花柱状格式。我们已经添加了支持其他格式,比如JSON。在Apache 1.2火花,我们采取下一步允许引发本地集成更大数量的输入源。这些新的集成成为可能通过新的火花SQL数据源包含的API。

DataSourcesApiDiagram

数据源访问结构化数据的API提供了一个可插入机制虽然火花SQL。数据源可以不仅仅是简单的管道数据并把它转换成火花。这个API提供的优化器的紧密集成意味着过滤和列修剪可以推一直到在许多情况下的数据源。这样的集成优化可以大大减少需要处理的数据量,从而可以显著加快火花工作。

使用数据源一样容易引用从SQL(或你最喜欢的火花语言):

创建临时使用com.databricks.spark.avro选项(路径“episodes.avro”)

数据源API的另一个优点是,它能让用户操作数据引发支持所有的语言,无论如何将数据来源。实现数据源,在Scala中,例如,可以使用pySpark用户库,而不需要任何额外的努力开发人员。此外,火花SQL很容易加入来自不同数据源的数据使用单一接口。综上所述,这些功能进一步统一大数据分析Apache火花1.2提供的解决方案。

尽管这个API仍然年轻,已经有几个库构建在它之上的,包括Apache Avro,逗号分隔值(csv),甚至数据库表文件格式(dbf)。既然Apache火花1.2已经正式发布,但我们希望这个列表快速增长。我们知道正在进行的努力,支持HBase, JDBC等等。看看火花包找到一个最新的可用的库列表。

为开发人员感兴趣的为自己喜欢的格式写一个图书馆,我们建议您学习Apache Avro参考图书馆阅读,请参阅例子来源,或看这个聚会视频

另外,请继续关注此API的扩展。在Apache 1.3引发我们希望添加对分区的支持,持续的表,和可选的用户指定的模式。

免费试着砖
看到所有工程的博客的帖子