问题
假设你有一个大列表 基本独立Parquet文件, 并有各种模式您想只读那些匹配特定模式并跳过不匹配文件的文件
一种解决办法可以是按序阅读文件,识别模式并联结DataFrames数据库并发然而,当有数十万文件时,这种办法不切实际。
求解
设置 Apachespark属性spark.sql.files.ignoreCorruptFiles至真实性并阅读文件时使用理想模式与指定模式不匹配的文件忽略生成数据集只包含匹配指定模式文件的数据
设置spark属性使用spark.conf.set:
spark.conf.set("spark.sql.files.ignoreCorruptFiles", "true")