带spark-XML加载特殊字符

特殊字符编译不正确Spark-XML使用字符集

写由annapurna.hiriyur

2022年5月19日

问题

源文件里有特殊字符并使用OSS库Spark-XML.

特殊字符不正确化

举个例子,CLUQQ

因果

Spark-XML默认支持UTF-8字符集XML文件使用不同字符集

求解

读取数据时必须具体说明 XML文件使用字符集

使用字符集spark-XML读取 XML文件时定义字符集选项

举例说,如果源文件使用ISO-8859-1

PythondResult=spark.read.format.schema/
          
           /
           
            .xml
           
          

复习Spark-XMLREADME文件获取更多支持选项信息

文章有帮助吗