(本文档仅供参考)

问题描述:

      在etl中添加读取excel中的文件,导入到数据库发现里面的内容出现了乱码,详见下图:

      原始文件:

     

     导入后文件

    

    

解决方案:

      方案1: 对于该一些简单的而且还比较少可以直接使用用spark sql 进行替换一下,替换的sql 例如:

select `序号` ,regexp_replace(`项目开展计划`  , "&#10", "\n") as `项目开展计划` from `TempView0` 

      方案2:可以直接使用的excel文件导入到数据表,然后ETL再读这张表来解决方案

      注: 对于数据导入,从安全考虑是不允许特殊字符写入,所以产品会限制一些特殊符号写到到数据库。