自动加载器是什么?
汽车逐步加载程序和有效的过程随着他们到达云存储新的数据文件没有任何额外的设置。
自动加载器是如何工作的呢?
自动加载程序逐步有效地流程到达云存储新的数据文件。自动加载程序可以加载数据文件从AWS S3 (s3: / /
),Azure数据存储Gen2湖(ADLS代,abfss: / /
),谷歌云存储(GCS,g: / /
),Azure Blob存储(wasbs: / /
),ADLS Gen1 (adl: / /
文件系统),砖(DBFS,dbfs: /
)。自动加载器可以摄取JSON
,CSV
,拼花
,AVRO
,兽人
,文本
,BINARYFILE
文件格式。
自动加载器提供了一个结构化流源cloudFiles
。给定一个输入在云端文件存储目录路径,cloudFiles
源自动流程为到达的新文件,选择也处理现有的文件目录。自动加载程序支持Python和SQL三角洲生活表。
您可以使用自动加载程序来处理数十亿的文件迁移或回填表。自动加载程序扩展到支持实时摄取数以百万计的文件每小时。
自动加载程序跟踪摄入进展如何?
文件被发现,他们的元数据保存在一个可伸缩的键值存储(RocksDB)检查点位置你的汽车装载器管道。这个键值存储处理确保数据准确。
在失败的情况下,自动加载器可以从上次的简历信息存储在检查点位置和继续提供只有一次保证当写入数据到三角洲湖。你不需要维护或管理任何国家自己来实现容错或仅一次语义。
教程:摄入数据与砖自动加载程序
砖建议汽车装载机三角洲生活表增量数据摄入。三角洲住在Apache火花结构化流表扩展功能,允许您编写几行Python或SQL声明式部署生产数据管道。
砖建议自动加载程序时使用Apache火花结构化流从云摄取数据对象存储。在Python和Scala api可用。
开始使用自动加载程序,请参阅:
常用的模式的例子,请参阅:
汽车的好处直接装入器在使用结构化流文件
在Apache的火花,你可以读文件逐步使用spark.readStream.format (fileFormat) .load(目录)
。自动加载程序在文件来源:提供了以下好处
可伸缩性:自动加载器能有效地发现数以十亿美元计的文件。详细可以异步执行,以避免浪费计算资源。
性能:发现文件自动加载程序的成本规模的文件,被消化,而不是目录文件的数量可能的土地。看到自动加载程序目录清单模式是什么?。
进化模式推理和支持:自动加载器可以检测模式漂移,通知你当模式变化发生,救援数据,否则会被忽略或丢失。看到自动加载程序模式推理是如何工作的呢?。
费用:汽车装载机使用本地云api来获取文件列表中存在的存储。此外,自动加载程序的文件通知模式可以帮助减少云成本进一步通过避免目录清单。自动加载程序可以自动设置文件存储,使文件通知服务发现便宜得多。