如何处理有不同模式的腐烂Parquet文件

学习使用Databricks使用特定模式阅读 Parquet文件

2022年5月31日

问题

假设你有一个大列表基本独立Parquet文件, 并有各种模式您想只读那些匹配特定模式并跳过不匹配文件的文件

一种解决办法可以是按序阅读文件,识别模式并联结DataFrames数据库并发然而,当有数十万文件时,这种办法不切实际。

设置 Apachespark属性spark.sql.files.ignoreCorruptFiles至真实性并阅读文件时使用理想模式与指定模式不匹配的文件忽略生成数据集只包含匹配指定模式文件的数据

设置spark属性使用spark.conf.set:

spark.conf.set("spark.sql.files.ignoreCorruptFiles", "true")

或选,您可设置此属性spark配置高山市AWS系统|休眠|GCP)