1、背景说明
针对项目中经常遇到的CPU占用告警问题问题排查的思路整理及相关工具的介绍。
2、问题说明
比较常见的情况是用户服务器的CPU一段时间内持续高占用不释放,导致运维平台持续告警,用户想要我们分析一下具体的原因以及给出必要的解决方案。
3、问题分析
3.1 第一步:定位占用CPU高的进程
使用Top命令确定是哪个进程占用了系统的大部分CPU,比较常见的是Smartbi的Tomcat进程占用资源最多的情况。
确定了是哪个进程占用了CPU后就需要分析是进程的哪一个线程占用了CPU。
3.2 第二步:定位消耗CPU高的代码逻辑
3.2.1 方法1 通过top查看CPU消耗
方法说明:
优势:不依赖任何外部工具,且可以分析ETL、OLAP和Tomcat。
劣势:手动打命令转化慢,可能线程瞬间就运行完毕了,则无法捕捉到。
3.2.1.1 定位高占用线程
命令:top -Hbp pid | awk '/java/ && $9>50'
注:其中pid为Tomcat进程号
3.2.1.2 将高占用进程的线程号转换成16进制
命令:printf "%x\n" tid
注:其中tid为Tomcat线程号
3.2.1.3 jstack查看进程信息-定位到代码
命令:jstack pid | grep "xxx" -A 30
注:其中pid为Tomcat进程号,"xxx"为线程号的16进制码
3.2.2 方法2 通过listthread.jsp查看CPU消耗
方法说明:
优势:操作简单方便快捷。
劣势:必须是Smartbi应用占用了CPU且必须Smartbi能访问时也能使用。
访问地址举例:http://proj.smartbi.com.cn:30001/smartbi/vision/monitor/listthreads.jsp
加载此界面完成后Ctrl+S保存网页内容发回分析,可分析是哪个线程占用过高的CPU,线程的堆栈也可以看到。
3.2.3 方法3 通过基线Tomcat内置工具
优势:操作简单方便快捷,且可以分析ETL、OLAP和Tomcat。
劣势:需要运行shell脚本,有些安全要求高的项目可能会被禁止。
命令:./1_show-busy-java-threads.sh
3.3 第三步:根据代码情况判断引起CPU高占用的原因
如果已经定位到了具体因为CPU高的代码,可以反馈研发以及结合现场产品使用的场景定位出具有的原因。(比如是因为数据库问题导致的线程等待)
注:如果确定了是Smartbi产品CPU占用高,还可以结合CPU采样和线程进一步分析具体的原因。
4、实战
5、其他原因导致CPU高问题
5.1 ETL导致的CPU占用告警
某项目反馈CPU使用率突然飙升,经排查发现是因为ETL执行引擎占用了较高的CPU
检查ETL配置发现执行引擎中配置了14核(一共16核)导致的问题,这个是ETL本身机制问题导致的。
注意:ETL运行原理是基于分配的CPU进行使用,如果job比较多且数据量大就会把所分配的CPU全部占用
ETL建议的CPU和内存比例为1:4 ,目前内存是32g,建议配置8核CPU。
4.2 V11旧版本BUG导致的性能问题
1)通过CPU采样发现( CPUSampling (5).zip),消耗内存比较多的方法调用是getAllChildrenWithTypeByPid方法
2)通过查看线程发现( ThreadDumps (1).zip )
线程选取的16点37到17点17,发现如下情况
16点37线程采样中没有getAllChildrenWithTypeByPid方法,现场CPU飙高报警也是从16点40左右开始的,从16点47之后的所有采用都能检索到getAllChildrenWithTypeByPid方法。
3)通过反馈的access日志和操作日志
发现引起getAllChildrenWithTypeByPid方法调用的人登录名是常亮,其通过回写选择数据源时引发了CPU飙高。
A、access日志检索的getAllChildrenWithTypeByPid方法调用
B、常亮的操作日志
C、经检查发现DS.jmlfooddws下面大约有4000张表
4)通过测试环境基本定位通过Excel进行回写配置时会触发getAllChildrenWithTypeByPid方法调用,客户现场生产环境测试了一下,调用一次CPU使用率会增长10%-20%,且一直持续,多调用几次就能增长到40%-50%。
综上:具体的操作已经定位,调用的方法也已经定位,下一步就是需要分析一下如何进行优化处理。
这个功能属于基础模块范围,咨询了大伟哥和小莫哥说是这个地方产品新版本做了一部分优化,现场也反馈测试环境v11 12月24号版本的Smartbi回写具有3000个表的测试库也没有发生CPU飙高情况,如下是进行了10月份版本和12月份版本对比验证一下产品优化的情况:
1)系统选项->高级添加monitor配置
MONITOR_OPEN=true
MONITOR_VERBOSE=true
2)电子表格进行回写选择数据源操作(会触发getAllChildrenWithTypeByPid方法的请求)
3)使用V11 10月份版本VS12月份版本进行对比
A、10月22日版本(知识库运行2000多次)
B、12月24日版本(知识库运行11次)
结论:V11产品在11月份左右针对此功能做了一系列优化,建议使用新版本再测试一下。EPPR-92170【南网云景】递归获取子孙节点逻辑性能优化EPPR-91535【南网云景】smarbti节点高cpu占用问题EPPR-90023【南网云景】单目录节点过多,加载超时