无法检测JSON编码

学习解决输入JSON文件编码失灵时使用BOM带Databricks

写由亚当巴夫拉卡

2022年6月1日

问题

Spark作业失败, 异常包含消息 :

无效字符UTF-320x1414

因果

JSON数据源阅读器能自动检测输入JSON文件编码滨海文件起始点

然而,BOM不是Unicode标准强制禁止RFC7159.

例如,8.1节表示...实现不向JSON文本起始点添加字节顺序标记

Spark不总能正确检测字符集并阅读JSON文件

求解

解题时禁止字符集自动检测机制并使用编码选项明文设置字符集

scala.opte


文章有帮助吗