优化三角洲水槽结构流应用

优化三角洲汇值

写由machan.pilai

2022年5月10日

三角洲表用于结构流应用并优化三角洲表以便查询速度更快

结构流应用区间极常触发, 可能无法创建足够文件,

上头自动优化操作压缩128MB文件显性优化操作Delta湖文件对1GB文件

if you没有足够多合格文件集,应定期优化Delta表文件

使用分页批量带模值

结构流应用中定期优化Delta表槽最简单方法之一是使用分页批量微批上带模值批量Id.

假设有流数据Frame从三角洲表创建使用分页批量写流数据Frame到Delta水槽

分页批量模式值批量Id使用之类优化运行后每10个小插件z顺序运行后每101个小插件

scalavaldf=spark.readStream.format
          
           df.writeStream.format (spark.sql)
           
            if(批量Id%101ssparksql
            
             z顺序由
             
              批发DF.write.format
              
               exputMode(更新).start
              
             
            
           
          

可修改模式值适合结构流应用


文章有帮助吗