(本文档仅供参考)
问题描述:
在etl中添加读取excel中的文件,导入到数据库发现里面的内容出现了乱码,详见下图:
原始文件:
导入后文件
解决方案:
方案1: 对于该一些简单的而且还比较少可以直接使用用spark sql 进行替换一下,替换的sql 例如:
select `序号` ,regexp_replace(`项目开展计划` , "
", "\n") as `项目开展计划` from `TempView0`
方案2:可以直接使用的excel文件导入到数据表,然后ETL再读这张表来解决方案
注: 对于数据导入,从安全考虑是不允许特殊字符写入,所以产品会限制一些特殊符号写到到数据库。