取消
显示结果
取而代之搜索
你的意思是:
社区讨论
bob体育客户端下载连接社区成员讨论与Databricks平台、行业趋势和最佳做法有关的一般性专题分享经验,提问,促进社区内部协作
取消
显示结果
取而代之搜索
你的意思是:

迭代读写原因java.lang.

沙木市
新建促进者三

迭代算法读写数据框迭代图

分块列表中的p:
df=spark.read.parquet
写字 格式化 高山市 德尔塔 .mode 重写 .选项( "partitionOverwriteMode" , 动态性 )
.saveAsTable(schema.my_delta_table)

最大分区数据大小为2tb整体4批重排管道后工作常成功常常因GC高压限制超出而失效标准输出中我观察了许多GC分配失效检查截图prs

貌似前数据框架执行计划保留在驱动器的内存中是这样吗
有办法每次迭代后清洗它吗

3回答 3

沙木市
新建促进者三

忘记提到df创建时我使用滤波法,

{cntr_id:12安全_key:15加载日期:[date1日期2滤镜像 :

df = spark.read.parquet("adls_storage").where((col(cntr_id) == p[cntr_id]) & (col(load_date).isin(p[load_dates])

daiel_sahal
受视帮助者

Chalki网站
GC分配失效略感混淆-它表示GC启动是因为堆积内存不足这是正常的,你不应该担心GC分配失效

更令人担心的是“GC高压限值超标”,意指JVM花太多时间处理GC

免用正确调试您的代码

沙木市
新建促进者三

校对:Portnoy错误片段/实际上它全GC人文学让我心烦意乱现时我系正确片段,但正如你说的我缩小点忘记提的是表宽度-超过300列循环内除数据框架外不产生额外对象,但下个循环内数据框架被覆盖
驱动节点内 内存构建如此之多麻烦你再详细讲讲以我个人知识

加入100K+数据专家:注册即时并生长

兴高采烈地与我们一起拓展视野点击这里注册并开始你成功之旅

已经是成员登录并加入本地区域用户群脱机如果没有人靠近你 填充表格本并创建一你加入