07-24-202311点22分
迭代算法读写数据框迭代图
最大分区数据大小为2tb整体4批重排管道后工作常成功常常因GC高压限制超出而失效标准输出中我观察了许多GC分配失效检查截图prs
貌似前数据框架执行计划保留在驱动器的内存中是这样吗有办法每次迭代后清洗它吗
07-24-202311点31分
忘记提到df创建时我使用滤波法,
{cntr_id:12安全_key:15加载日期:[date1日期2滤镜像 :
df = spark.read.parquet("adls_storage").where((col(cntr_id) == p[cntr_id]) & (col(load_date).isin(p[load_dates])
07-25-202310点45分
Chalki网站GC分配失效略感混淆-它表示GC启动是因为堆积内存不足这是正常的,你不应该担心GC分配失效更令人担心的是“GC高压限值超标”,意指JVM花太多时间处理GC免用正确调试您的代码
07-26-202312时55分-编辑07-26-202312时55分
校对:Portnoy错误片段/实际上它全GC人文学让我心烦意乱现时我系正确片段,但正如你说的我缩小点忘记提的是表宽度-超过300列循环内除数据框架外不产生额外对象,但下个循环内数据框架被覆盖驱动节点内 内存构建如此之多麻烦你再详细讲讲以我个人知识
永不显示
兴高采烈地与我们一起拓展视野点击这里注册并开始你成功之旅
已经是成员登录并加入本地区域用户群脱机如果没有人靠近你 填充表格本并创建一你加入