页面树结构

版本比较

标识

  • 该行被添加。
  • 该行被删除。
  • 格式已经改变。

(本文档仅供参考)

问题描述:

    客户在etl中添加读取excel中的文件,导入到数据库发现里面的内容出现了乱码,详见下图:  在etl中添加读取excel中的文件,导入到数据库发现里面的内容出现了乱码,详见下图:

     原始文件:  原始文件:

     

导入后文件     导入后文件

    

    

解决方案:

      方案1: 对于该一些简单的而且还比较少可以直接使用用spark sql 进行替换一下,替换的sql 例如:

select `序号` ,regexp_replace(`项目开展计划`  , "&#10", "\n") as `项目开展计划` from `TempView0` 

     

...

方案2:可以直接使用的excel文件导入到数据表,然后ETL再读这张表来解决方案

      注:  因为涉及到漏洞,所以暂时不处理。对于数据导入,从安全考虑是不允许特殊字符写入,所以产品会限制一些特殊符号写到到数据库。