数据砖社区

沙木市 · 07-24-2023

迭代算法读写数据框迭代图

分块列表中的p:

df=spark.read.parquet

写字格式化高山市德尔塔 .mode 重写 .选项( "partitionOverwriteMode" , 动态性 )

.saveAsTable(schema.my_delta_table)

最大分区数据大小为2tb整体4批重排管道后工作常成功常常因GC高压限制超出而失效标准输出中我观察了许多GC分配失效检查截图prs

貌似前数据框架执行计划保留在驱动器的内存中是这样吗
有办法每次迭代后清洗它吗

沙木市 · 07-24-2023

忘记提到df创建时我使用滤波法,

{cntr_id:12安全_key:15加载日期:[date1日期2滤镜像 :

df = spark.read.parquet("adls_storage").where((col(cntr_id) == p[cntr_id]) & (col(load_date).isin(p[load_dates])

daiel_sahal · 07-25-2023

Chalki网站
GC分配失效略感混淆-它表示GC启动是因为堆积内存不足这是正常的,你不应该担心GC分配失效

更令人担心的是“GC高压限值超标”,意指JVM花太多时间处理GC

免用正确调试您的代码

沙木市 · 07-26-2023

校对:Portnoy错误片段/实际上它全GC人文学让我心烦意乱现时我系正确片段,但正如你说的我缩小点忘记提的是表宽度-超过300列循环内除数据框架外不产生额外对象,但下个循环内数据框架被覆盖
驱动节点内内存构建如此之多麻烦你再详细讲讲以我个人知识

迭代读写原因java.lang.