问题
源文件里有特殊字符并使用OSS库Spark-XML.
特殊字符不正确化
举个例子,CLUQQ
因果
Spark-XML默认支持UTF-8字符集XML文件使用不同字符集
求解
读取数据时必须具体说明 XML文件使用字符集
使用字符集spark-XML读取 XML文件时定义字符集选项
举例说,如果源文件使用ISO-8859-1
PythondResult=spark.read.format.schema// .xml
复习Spark-XMLREADME文件获取更多支持选项信息