最近一周左右,网管监控系统经常监控到tomcat异常退出,,由于有检测tomcat pid的脚本,所以会自动重启服务器,查询tomcat日志没有报错信息,查询系统message日志,可以看到如下信息。
Dec 15 22:08:07 net-wap3 kernel: java[8299]: segfault at 00000000453caa98 rip 00002aaac4d055bd rsp 00000000453caa80 error 6
然后用nohup strace -p pid &> strace.log &将程序与内核之间传递的信号记录下来,记录下如下信息:
Process 9754 attached – interrupt to quitfutex(0x40b589d0, FUTEX_WAIT, 9762, NULL <unfinished …>+++ killed by SIGSEGV +++
可以看到是被11号信号kill的,然后我们需要得到程序退出时的corefile。
编辑/etc/profile将其中的ulimit -S -c 0 > /dev/null 2>&1改成ulimit -S -c unlimited > /dev/null 2>&1,然后source /etc/profile,用ulimit -c查看查看,将程序重启。
然后查看一下重启后的程序的pid,然后cat /proc/pid/limits,其中
Limit Soft Limit Hard Limit Units
Max core file size unlimited unlimited bytes
确定红色地方为unlimited,确保可以输出corefile,然后运行echo “/corefile/core_%p_%s_%t_%e” >/proc/sys/kernel/core_uses_pid,将corefile输出到/corefile下,%p代表pid,%s代表引起程序退出的信号,%t代表自1970年1月1日0时到程序退出时的秒数,%e代表可执行文件名,如我得到的文件core_29151_11_1387033918_java。
然后用gdb javacore_29151_11_1387033918_java和jstack javacore_29151_11_1387033918_java分析。
在jstack输出的结果中发现如下信息
– org.apache.jsp._480.mfb.zt.qc._30999750.index_jsp._jspService(javax.servlet.http.HttpServletRequest, javax.servlet.http.HttpServletResponse) @bci=1680, line=296 (Interpreted frame)旅游,放松心情,用眼睛享受风景。