三角洲表用于结构流应用并优化三角洲表以便查询速度更快
结构流应用区间极常触发, 可能无法创建足够文件,
上头自动优化操作压缩128MB文件显性优化操作Delta湖文件对1GB文件
if you没有足够多合格文件集,应定期优化Delta表文件
使用分页批量带模值
结构流应用中定期优化Delta表槽最简单方法之一是使用分页批量微批上带模值批量Id.
假设有流数据Frame从三角洲表创建使用分页批量写流数据Frame到Delta水槽
内分页批量模式值批量Id使用之类优化运行后每10个小插件z顺序运行后每101个小插件
scalavaldf=spark.readStream.formatdf.writeStream.format (spark.sql) if(批量Id%101ssparksql z顺序由 批发DF.write.format exputMode(更新).start
可修改模式值适合结构流应用