事务性写与DBIO云存储
重要的
这个文档已经退休了,可能不会被更新。产品、服务或技术中提到的这些内容不再支持。看到酸保证砖是什么?。
砖DBIO包提供了Apache火花事务写入云存储工作。这解决了很多性能和正确性问题时火花是用于进行设置(例如,直接写入存储服务)。
重要的
提交协议不尊重使用路径访问数据时结束*
。例如,阅读dbfs: /我/路径
只会返回已提交的更改,而阅读dbfs: / / *本人/路径
将返回的所有数据文件的内容目录,不管其内容是否提交或不是。这是一个预期行为。
与DBIO事务提交,从元数据文件_started_ < id >
和_committed_ < id >
伴随数据文件由火花工作。通常你不应该直接修改这些文件。相反,你应该使用真空
命令来清除它们。
清理未提交的文件
清理未提交文件遗留火花工作,使用真空
命令来删除它们。正常情况下真空
发生后自动火花工作完成,但你也可以手动运行它如果工作中止。
例如,真空…保留1小时
删除未提交的文件超过一个小时。
重要的
避免吸尘地平线的不到一个小时。它可能导致数据不一致。
也看到真空。
——递归真空输出路径真空/ /输出/目录/路径的(保留<N>小时]——真空所有分区的目录表真空的表(保留<N>小时]
/ /递归真空输出路径火花。sql(“真空/道路/ /输出/目录”(保留< N >小时)”)/ /真空所有分区的目录表火花。sql(“真空表名(保留< N >小时)”)