coredump文件分析,如何排查大型C程序中的内存写越界导致的coredump

coredump文件分析,如何排查大型C程序中的内存写越界导致的coredump详细介绍

本文目录一览： linux 怎么分析core文件

从接触unix开始就一直听到和遇到core dump，特别是刚学着使用C语言在AIX下编写程序的时候，core dump更是时不时就会不请自来。记得当时刚写应用的时候，提交程序时最怕的就是在运行过程时遇到core dump，对于银行核心系统，特别是使用静态应用进程，如果一个相对频繁一点的交易导致core dump，那么毫无疑问，除了赶紧定位错误改程序外，重启进程甚至无法争取到多少缓冲的时间来进行代码的更正和测试。而且往往导致core dump的，就是程序中一个小小的未注意到或者未测试到的一个疏忽。
虽然常常遇到core dump，不过很长时间内，都是出于知道这个名字，知道它导致的后果，知道一部分导致它出现的原因，其他的就都不甚了了了。说起来，就是自己太懒了，懒得看书......少壮不努力啊。看过一则统计，说60岁以上的老人，超过70%都后悔少壮不努力，不知统计的数据能否反映整个社会的情况。不过总的来说，这句古话还是有些道理的。大家不要学我。哈哈
core dump，翻译过来讲，就是核心转储。大致上就是指，如果由于应用错误，如浮点异常、指令异常等，操作系统将会转入内核的异常处理，向对应的进程发送特定的信号（SIGNAL），如果进程中没有对这些信号进行处理，就会转入默认的处理，core dump就是其中的一种。如果进程core dump，系统将会终止该进程，同时系统会产生core文件，以供调试使用。这个core文件其实就是内存的映像，即进程执行的时候内存的内容，也就是所谓的core dump。平常大家说某某进程core dump了，其实主要的意思就是说：某某进程因为错误而被系统自动终止了。
AIX上提供了dbx工具可以对core dump进行调试，协助定位引起core dump的代码。最普通的语法是：
dbx 应用名 core文件，然后使用where命令来显示调试信息
一般来讲，根据工作中遇到的情况，dbx还是能够比较轻松的根据提示的内容来定位代码的。不过也有一些特殊情况时，dbx显示的调试信息过于模糊或者不直观，这个时候就只能根据经验来逐步定位了。有时定位起来会耗用相当长的时间。遇到这种情况时，使用日志文件，通过在代码中穿插多个写log的语句，也可以协助发现。因为进程core dump时，日志当然也中断了，根据日志在哪个代码行之后或之前中止了，可以有效缩小寻找的范围。甚至，在有些情况下，使用日志定位是唯一简便的方法了。

如何分析arm的coredump文件

#arm-linux-gdb -c core

#arm-linux-gdb -c core.xxx

app_name 是在arm9中运行的产生core的文件，要将它复制到X86环境中。

如何排查大型C程序中的内存写越界导致的coredump

首先要定位越界点
通过单步调试或者是加打印找到出现错误的点
然后，查附近代码 90%以上的越界，都是出现在附近几行代码里面尤其是数组指针操作，要细查
如果出现的崩溃点不一致，或者附近代码确定没问题
那就得通过core dump分析哪个部分的内存被修改了，然后，到map中，查附近的其它数组变量
然后查这些数组变量的写操作，看哪些可能出现越界。
这个是一个漫长的工作了很烦
通常情况下coredmp包含了程序运行时的内存，寄存器状态，堆栈指针，内存管理信息等。可以理解为把程序工作的当前状态存储成一个文件。许多程序和操作系统出错时会自动生成一个core文件。
内存访问越界
a) 由于使用错误的下标，导致数组访问越界
b) 搜索字符串时，依靠字符串结束符来判断字符串是否结束，但是字符串没有正常的使用结束符
c) 使用strcpy, strcat, sprintf, strcmp, strcasecmp等字符串操作函数，将目标字符串读/写爆。应该使用strncpy, strlcpy, strncat, strlcat, snprintf, strncmp, strncasecmp等函数防止读写越界。
当我们的程序崩溃时，内核有可能把该程序当前内存映射到core文件里，方便程序员找到程序出现问题的地方。最常出现的，几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。
core文件创建在什么位置
在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数，则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了，我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。
什么时候不产生core文件
在下列条件下不产生core文件：
( a )进程是设置-用户-ID，而且当前用户并非程序文件的所有者；
( b )进程是设置-组-ID，而且当前用户并非该程序文件的组所有者；
( c )用户没有写当前工作目录的许可权；
( d )文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写，组读和其他读。
利用GDB调试core文件，当遇到程序崩溃时我们不再束手无策。

System Dump和Core Dump的区别

进程Core Dump产生的技术原因，基本等同于系统DUMP，就是说从程序原理上来说是基本一致的。
但进程是运行在低一级的优先级上（此优先级不同于系统中对进程定义的优先级，而是指CPU代码指令的优先级），被操作系统所控制，所以操作系统可以在一个进程出问题时，不影响其他进程的情况下，中止此进程的运行，并将相关环境保存下来，这就是core dump文件，可供分析。
如果进程是用高级语言编写并编译的，且用户有源程序，那么可以通过在编译时带上诊断用符号表（所有高级语言编译程序都有这种功能），通过系统提供的分析工具，加上core文件，能够分析到哪一个源程序语句造成的问题，进而比较容易地修正问题，当然，要做到这样，除非一开始就带上了符号表进行编译，否则只能重新编译程序，并重新运行程序，重现错误，才能显示出源程序出错位置。
如果用户没有源程序，那么只能分析到汇编指令的级别，难于查找问题所在并作出修正，所以这种情况下就不必多费心了，找到出问题的地方也没有办法。
进程Core Dump的时候，操作系统会将进程异常终止掉并释放其占用的资源，不可能对系统本身的运行造成危害。这是与系统DUMP根本区别的一点，系统DUMP产生时，一定伴随着系统崩溃和停机，进程Core Dump时，只会造成相应的进程被终止，系统本身不可能崩溃。当然如果此进程与其他进程有关联，其他进程也会受到影响，至于后果是什么，就看相关进程对这种异常情况（与自己相关的进程突然终止）的处理机制是什么了，没有一概的定论。
如何生成coredump文件?
登陆LINUX服务器，任意位置键入
echo "ulimit -c 1024" >> /etc/profile
退出LINUX重新登陆LINUX
键入 ulimit -c
如果显示 1024 那么说明coredump已经被开启。
//---------------------------------------------------------------
1. core文件的简单介绍
//---------------------------------------------------------------
在一个程序崩溃时，它一般会在指定目录下生成一个core文件。core文件仅仅是一个内存映象(同时加上调试信息)，主要是用来调试的。
//---------------------------------------------------------------
2. 开启或关闭core文件的生成
//---------------------------------------------------------------
用以下命令来阻止系统生成core文件:
ulimit -c 0
下面的命令可以检查生成core文件的选项是否打开:
ulimit -a
该命令将显示所有的用户定制，其中选项-a代表“all”。
也可以修改系统文件来调整core选项
在/etc/profile通常会有这样一句话来禁止产生core文件，通常这种设置是合理的:
# No core files by default
ulimit -S -c 0 > /dev/null 2>&1
但是在开发过程中有时为了调试问题，还是需要在特定的用户环境下打开core文件产生的设置
在用户的~/.bash_profile里加上ulimit -c unlimited来让特定的用户可以产生core文件
如果ulimit -c 0 则也是禁止产生core文件，而ulimit -c 1024则限制产生的core文件的大小不能超过1024kb
//---------------------------------------------------------------
3. 设置Core Dump的核心转储文件目录和命名规则
//---------------------------------------------------------------
/proc/sys/kernel/core_uses_pid可以控制产生的core文件的文件名中是否添加pid作为扩展，如果添加则文件内容为1，否则为0
proc/sys/kernel/core_pattern可以设置格式化的core文件保存位置或文件名，比如原来文件内容是core-%e
可以这样修改:
echo "/corefile/core-%e-%p-%t" > core_pattern
将会控制所产生的core文件会存放到/corefile目录下，产生的文件名为core-命令名-pid-时间戳
以下是参数列表:
%p - insert pid into filename 添加pid
%u - insert current uid into filename 添加当前uid
%g - insert current gid into filename 添加当前gid
%s - insert signal that caused the coredump into the filename 添加导致产生core的信号
%t - insert UNIX time that the coredump occurred into filename 添加core文件生成时的unix时间
%h - insert hostname where the coredump happened into filename 添加主机名
%e - insert coredumping executable name into filename 添加命令名
//---------------------------------------------------------------
4. 使用core文件
//---------------------------------------------------------------
在core文件所在目录下键入:
gdb -c core
它会启动GNU的调试器，来调试core文件，并且会显示生成此core文件的程序名，中止此程序的信号等等
如果你已经知道是由什么程序生成此core文件的，比如MyServer崩溃了生成core.12345，那么用此指令调试:
gdb -c core MyServer
以下怎么办就该去学习gdb的使用了
//---------------------------------------------------------------
5. 一个小方法来测试产生core文件
//---------------------------------------------------------------
直接输入指令:
kill -s SIGSEGV $$

如何分析websphere生成的javacore和heapdump

在was启动前设置下面环境变量（可以加在启动脚本中）
export IBM_HEAPDUMP=true
export IBM_HEAP_DUMP=true
export IBM_HEAPDUMP_OUTOFMEMORY=true
export IBM_HEAPDUMPDIR=

阅读更多 >>> 软件科技为什么跌停

2．2please use set command to make sure you do not have DISABLE_JAVADUMP parameter

then start this cluster member.

用set命令检查参数设置，确保没有设置DISABLE_JAVADUMP，然后启动server

2．3when you find free memory < 50% when no heavy access, please run kill -3

执行kill -3

命令可以生成javacore文件和heapdump文件（pid为was java进程的id号，可以用ps -ef|grep java 查到），可以多执行几次，按照下面操作进行

ps -ef > psef1.txt

ps aux > psaux1.txt

vmstat 5 10 > vmstat.txt

kill -3

wait for 2 mins

kill -3

netstat -an> netstat2.txt

ps -ef > psef2.txt

ps aux > psaux2.txt

将上面产生的 txt 文件和/usr/WebSphere/AppServer/javacore*文件和heapdump文件拷贝到本地，然后删除这些文件，因为这些文件会占用较大的文件系统空间。

linux c内存溢出的core dump bug怎么跟

浅析Linux下core文件
当我们的程序崩溃时，内核有可能把该程序当前内存映射到core文件里，方便程序员找到程序出现问题的地方。最常出现的，几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。
何谓core文件
当一个程序崩溃时，在进程当前工作目录的core文件中复制了该进程的存储图像。core文件仅仅是一个内存映象(同时加上调试信息)，主要是用来调试的。
当程序接收到以下UNIX信号会产生core文件：
名字

说明

ANSI C POSIX.1

SVR4 4.3+BSD

缺省动作

SIGABRT

异常终止(abort)

. .

终止w/core

SIGBUS

硬件故障

. .

终止w/core

SIGEMT

硬件故障

. .

终止w/core

SIGFPE

算术异常

. .

终止w/core

SIGILL

非法硬件指令

. .

终止w/core

SIGIOT

硬件故障

. .

终止w/core

SIGQUIT

终端退出符

. .

终止w/core

SIGSEGV

无效存储访问

. .

终止w/core

SIGSYS

无效系统调用

. .

终止w/core

SIGTRAP

硬件故障

. .

终止w/core

SIGXCPU

超过CPU限制(setrlimit)

. .

终止w/core

SIGXFSZ

超过文件长度限制(setrlimit)

. .

终止w/core

在系统默认动作列，“终止w/core”表示在进程当前工作目录的core文件中复制了该进程的存储图像（该文件名为core，由此可以看出这种功能很久之前就是UNIX功能的一部分）。大多数UNIX调试程序都使用core文件以检查进程在终止时的状态。
core文件的产生不是POSIX.1所属部分,而是很多UNIX版本的实现特征。UNIX第6版没有检查条件 (a)和(b)，并且其源代码中包含如下说明：“如果你正在找寻保护信号，那么当设置-用户-ID命令执行时，将可能产生大量的这种信号”。4.3 + BSD产生名为core.prog的文件，其中prog是被执行的程序名的前1 6个字符。它对core文件给予了某种标识，所以是一种改进特征。
表中“硬件故障”对应于实现定义的硬件故障。这些名字中有很多取自UNIX早先在DP-11上的实现。请查看你所使用的系统的手册，以确切地确定这些信号对应于哪些错误类型。
下面比较详细地说明这些信号。
? SIGABRT 调用abort函数时产生此信号。进程异常终止。
? SIGBUS 指示一个实现定义的硬件故障。
? SIGEMT 指示一个实现定义的硬件故障。
EMT这一名字来自PDP-11的emulator trap 指令。
? SIGFPE 此信号表示一个算术运算异常，例如除以0，浮点溢出等。
? SIGILL 此信号指示进程已执行一条非法硬件指令。
4.3BSD由abort函数产生此信号。SIGABRT现在被用于此。
? SIGIOT 这指示一个实现定义的硬件故障。
IOT这个名字来自于PDP-11对于输入／输出TRAP(input/output TRAP)指令的缩写。系统V的早期版本，由abort函数产生此信号。SIGABRT现在被用于此。
? SIGQUIT 当用户在终端上按退出键（一般采用Ctrl-\）时，产生此信号，并送至前台进
程组中的所有进程。此信号不仅终止前台进程组（如SIGINT所做的那样），同时产生一个core文件。
? SIGSEGV 指示进程进行了一次无效的存储访问。
名字SEGV表示“段违例（segmentation violation）”。
? SIGSYS 指示一个无效的系统调用。由于某种未知原因，进程执行了一条系统调用指令，
但其指示系统调用类型的参数却是无效的。
? SIGTRAP 指示一个实现定义的硬件故障。
此信号名来自于PDP-11的TRAP指令。
? SIGXCPU SVR4和4.3+BSD支持资源限制的概念。如果进程超过了其软C P U时间限制，则产生此信号。
? SIGXFSZ 如果进程超过了其软文件长度限制，则SVR4和4.3+BSD产生此信号。
摘自《UNIX环境高级编程》第10章信号。
使用core文件调试程序
看下面的例子：
/*core_dump_test.c*/
#include
const char *str = "test";
void core_test(){
str[1] = 'T';
}
int main(){
core_test();
return 0;
}
编译：
gcc –g core_dump_test.c -o core_dump_test
如果需要调试程序的话，使用gcc编译时加上-g选项，这样调试core文件的时候比较容易找到错误的地方。
执行：
./core_dump_test
段错误
运行core_dump_test程序出现了“段错误”，但没有产生core文件。这是因为系统默认core文件的大小为0，所以没有创建。可以用ulimit命令查看和修改core文件的大小。
ulimit -c 0
ulimit -c 1000
ulimit -c 1000
-c 指定修改core文件的大小，1000指定了core文件大小。也可以对core文件的大小不做限制，如：
ulimit -c unlimited
ulimit -c unlimited
如果想让修改永久生效，则需要修改配置文件，如 .bash_profile、/etc/profile或/etc/security/limits.conf。
再次执行：
./core_dump_test
段错误 (core dumped)
ls core.*
core.6133
可以看到已经创建了一个core.6133的文件.6133是core_dump_test程序运行的进程ID。
调式core文件
core文件是个二进制文件，需要用相应的工具来分析程序崩溃时的内存映像。
file core.6133
core.6133: ELF 32-bit LSB core file Intel 80386, version 1 (SYSV), SVR4-style, from 'core_dump_test'
在Linux下可以用GDB来调试core文件。
gdb core_dump_test core.6133
GNU gdb Red Hat Linux (5.3post-0.20021129.18rh)
Copyright 2003 Free Software Foundation, Inc.
GDB is free software, covered by the GNU General Public License, and you are
welcome to change it and/or distribute copies of it under certain conditions.
Type "show copying" to see the conditions.
There is absolutely no warranty for GDB. Type "show warranty" for details.
This GDB was configured as "i386-redhat-linux-gnu"...
Core was generated by `./core_dump_test'.
Program terminated with signal 11, Segmentation fault.
Reading symbols from /lib/tls/libc.so.6...done.
Loaded symbols for /lib/tls/libc.so.6
Reading symbols from /lib/ld-linux.so.2...done.
Loaded symbols for /lib/ld-linux.so.2
#0 0x080482fd in core_test () at core_dump_test.c:7
7 str[1] = 'T';
(gdb) where
#0 0x080482fd in core_test () at core_dump_test.c:7
#1 0x08048317 in main () at core_dump_test.c:12
#2 0x42015574 in __libc_start_main () from /lib/tls/libc.so.6
GDB中键入where，就会看到程序崩溃时堆栈信息（当前函数之前的所有已调用函数的列表（包括当前函数），gdb只显示最近几个），我们很容易找到我们的程序在最后崩溃的时候调用了core_dump_test.c 第7行的代码，导致程序崩溃。注意：在编译程序的时候要加入选项-g。您也可以试试其他命令，　如　fram、list等。更详细的用法，请查阅GDB文档。
core文件创建在什么位置
在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数，则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了，我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。
什么时候不产生core文件
在下列条件下不产生core文件：
( a )进程是设置-用户-ID，而且当前用户并非程序文件的所有者；
( b )进程是设置-组-ID，而且当前用户并非该程序文件的组所有者；
( c )用户没有写当前工作目录的许可权；
( d )文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写，组读和其他读。
利用GDB调试core文件，当遇到程序崩溃时我们不再束手无策。

阅读更多 >>> 角磨机为什么烧碳刷

如何查询和修改Linux操作系统生成core dump文件的默认路径？

经过分析发现系统默认的core文件生成路径是/var/logs，但/var/logs目录并非系统自带的，系统初始安装默认自带的是/var/log，最终导致该系统出现core dump后并没能生成core文件，因此如何查询和修改系统默认的core dump文件生产路径呢？
方法如下：一. 查询core dump文件路径：
方法1： # cat /proc/sys/kerne怠珐糙貉孬股茬瘫长凯l/core_pattern。
方法2： # /sbin/sysctl kernel.core_pattern二. 修改core dump文件路径：
方法1：临时修改/proc/sys/kernel/core_pattern文件，但/proc目录本身是动态加载的，每次系统重启都会重新加载，因此这种方法只能作为临时修改。 /proc/sys/kernel/core_pattern 例：echo ‘/var/log/%e.core.%p’ > /proc/sys/kernel/core_pattern
方法2：永久修改：使用sysctl -w name=value命令。例：/sbin/sysctl -w kernel.core_pattern=/var/log/%e.core.%p为了更详尽的记录core dump当时的系统状态，可通过以下参数来丰富core文件的命名： %% 单个%字符。

GDB如何从Coredump文件恢复动态库信息

对于如何恢复动态链接库信息，我们需要关注的是post_create_inferior函数。在这个函数里，如果在core指令之前已执行了file或exec_file命令，即已拥有了主执行程序的信息，那么就会调用solib_add来添加所有的so库。
可见，恢复动态链接库信息的前提是必须拥有Coredump文件和原始主执行程序的Binary文件，如果只有其中一个，是不能恢复动态链接库信息的。
继续看solib_add函数，它主要调用update_solib_list来更新所有的so库列表，在update_solib_list函数里，关键的地方是调用ops->current_sos函数来获取so库信息列表，而current_sos函数总是根据当前信息重建so库列表。
在不同的操作系统和体系架构上，会有不同的current_sos实现。对于工程中通常使用的ARM指令和MIPS指令上的Linux系统，会由svr4_current_sos函数来实现重建功能。
进入svr4_current_sos函数，首先调用locate_base获取调试信息的基址。它调用elf_locate_base分析主执行程序的ELF文件得到该信息。elf_locate_base先调用scan_dyntag查找类型为DT_MIPS_RLD_MAP(0x70000016)的动态信息，如果失败再调用scan_dyntag查找类型为DT_DEBUG(21)的动态信息。对于MIPS，编译器用DT_MIPS_RLD_MAP信息存放调试信息，而DT_DEBUG信息是无意义的，对于其他平台如ARM，则用DT_DEBUG信息存放调试信息，没有DT_MIPS_RLD_MAP信息。san_dyntag读取名为".dynamic”的section并逐一扫描，该section的内容由dynamic section structure数组组成，每个structure由两个整数组成，第一个整数是dynamic的类型（例如DT_DEBUG），第二个整数是dynamic的值，值的意义与类型相关。scan_dyntag逐一扫描，找到类型为DT_MIPS_RLD_MAP的动态信息，然后返回其值。该值是在编译时已经计算好的，实际上其值总是名为".rld_map”的section的地址。elf_locate_base会读取scan_dyntag返回的值所指向的内容，也就是".rld_map” section的内容。".rld_map” section的长度只有4字节，其内容是调试信息的基址，指向dynamic linker structs。在编译时，".rld_map”的值为0，在运行时，由加载器填写其值，加载器会维护一个dynamic linker structs，地址就放在".rld_map”中。在linux中，加载器通常是ld.so或者ld_linux.so。locate_base将elf_locate_base返回的值赋给全局变量debug_base，这样debug_base就指向了dynamic linker structs。由于这个信息是运行时才有的，所以GDB只有在同时载入主执行文件和Coredump文件后才能恢复这个链表。
svr4_current_sos再调用solib_svr4_r_map从dynamic linker structs中获取link map list链表，由于不同平台上数据的组织不同，GDB在读取信息时会调用svr4_fetch_link_map_offsets等函数来获取各变量的偏移地址和尺寸，在mips中，它最终会通过svr4_ilp32_fetch_link_map_offsets提供的信息来解析结构体的数据。在这里r_map_offset的信息为4，所以solib_svr4_r_map从debug_base + 4的地方读取link map list信息，这样就得到了整个链接映射表的头指针。
查看 error log：
我们拿到了崩溃位置0xee36f1，如何找到与之相对的代码位置呢？
找台测试机，获取对应版本的安装包：
解压：
然后用 GDB 打开 mysqld：
在 0xee36f1 位置打一个断点：
我们可以看到，gdb 将崩溃位置的文件名和行号都打印出来，
剩下的事情，就可以交给开发工程师，按照这个崩溃堆栈来进行问题排查。
赠送章节
红框内的这串信息是什么？我们来解开看一下，
这段信息分为两段，"+0x71" 是一个偏移量，前面是一串文字，我们将文字解析出来：
可以看到前面这串文字是一个函数签名的编码，用 c++filt 还原编码以后，可以看到完整的函数签名。
红框内的这串信息的意思就是崩溃位置是一个函数起始位置 + 偏移量。
我们大概可以猜到，这个 MySQL 的缺陷是在为 binlog 产生新的文件名时发生的。
小贴士：
函数起始位置 + 偏移量是一种内存位置的表示方法，但该位置不一定是这个函数内的代码。
以本例来说，0xee36f1 这个位置，程序找到了就近的函数 generate_new_name 的起始位置，计算出有 0x71 这么多偏移，就表示成了 generate_new_name+0x71 这种形式。
但 0xee36f1 这个位置的代码，大概率是，但，不一定是 generate_new_name 这个函数内部的一段代码。

linux 下如何打开core dump文件开关

查看 error log：
我们拿到了崩溃位置0xee36f1，如何找到与之相对的代码位置呢？
找台测试机，获取对应版本的安装包：
解压：
然后用 GDB 打开 mysqld：
在 0xee36f1 位置打一个断点：
我们可以看到，gdb 将崩溃位置的文件名和行号都打印出来，
剩下的事情，就可以交给开发工程师，按照这个崩溃堆栈来进行问题排查。
赠送章节
红框内的这串信息是什么？我们来解开看一下，
这段信息分为两段，"+0x71" 是一个偏移量，前面是一串文字，我们将文字解析出来：
可以看到前面这串文字是一个函数签名的编码，用 c++filt 还原编码以后，可以看到完整的函数签名。
红框内的这串信息的意思就是崩溃位置是一个函数起始位置 + 偏移量。
我们大概可以猜到，这个 MySQL 的缺陷是在为 binlog 产生新的文件名时发生的。
小贴士：
函数起始位置 + 偏移量是一种内存位置的表示方法，但该位置不一定是这个函数内的代码。
以本例来说，0xee36f1 这个位置，程序找到了就近的函数 generate_new_name 的起始位置，计算出有 0x71 这么多偏移，就表示成了 generate_new_name+0x71 这种形式。
但 0xee36f1 这个位置的代码，大概率是，但，不一定是 generate_new_name 这个函数内部的一段代码。
从接触unix开始就一直听到和遇到core dump，特别是刚学着使用C语言在AIX下编写程序的时候，core dump更是时不时就会不请自来。记得当时刚写应用的时候，提交程序时最怕的就是在运行过程时遇到core dump，对于银行核心系统，特别是使用静态应用进程，如果一个相对频繁一点的交易导致core dump，那么毫无疑问，除了赶紧定位错误改程序外，重启进程甚至无法争取到多少缓冲的时间来进行代码的更正和测试。而且往往导致core dump的，就是程序中一个小小的未注意到或者未测试到的一个疏忽。
虽然常常遇到core dump，不过很长时间内，都是出于知道这个名字，知道它导致的后果，知道一部分导致它出现的原因，其他的就都不甚了了了。说起来，就是自己太懒了，懒得看书......少壮不努力啊。看过一则统计，说60岁以上的老人，超过70%都后悔少壮不努力，不知统计的数据能否反映整个社会的情况。不过总的来说，这句古话还是有些道理的。大家不要学我。哈哈
core dump，翻译过来讲，就是核心转储。大致上就是指，如果由于应用错误，如浮点异常、指令异常等，操作系统将会转入内核的异常处理，向对应的进程发送特定的信号（SIGNAL），如果进程中没有对这些信号进行处理，就会转入默认的处理，core dump就是其中的一种。如果进程core dump，系统将会终止该进程，同时系统会产生core文件，以供调试使用。这个core文件其实就是内存的映像，即进程执行的时候内存的内容，也就是所谓的core dump。平常大家说某某进程core dump了，其实主要的意思就是说：某某进程因为错误而被系统自动终止了。
AIX上提供了dbx工具可以对core dump进行调试，协助定位引起core dump的代码。最普通的语法是：
dbx 应用名 core文件，然后使用where命令来显示调试信息
一般来讲，根据工作中遇到的情况，dbx还是能够比较轻松的根据提示的内容来定位代码的。不过也有一些特殊情况时，dbx显示的调试信息过于模糊或者不直观，这个时候就只能根据经验来逐步定位了。有时定位起来会耗用相当长的时间。遇到这种情况时，使用日志文件，通过在代码中穿插多个写log的语句，也可以协助发现。因为进程core dump时，日志当然也中断了，根据日志在哪个代码行之后或之前中止了，可以有效缩小寻找的范围。甚至，在有些情况下，使用日志定位是唯一简便的方法了。
在 console 下，用 gdb ELF CORE-FILE 方式来调试程序。
dump文件可以在程序crash时，方便我们查看程序crash的地方和上下文信息。在window下，要能生成dump文件，需要自己编写相应的代码。不过现在网上可以找到相应的代码，只要把它下载后然后加到自己的工程中去，就可以了！
在linux下面就简单的许多。只要打开相应的开关，linux会自动在程序crash时生成相应的core文件。这个文件和window下的dump文件类似。
下面是简单的一些步骤：
1.查看当前是否已经打开了此开关
通过命令：ulimit -c 如果输出为 0
，则代表没有打开。如果为unlimited则已经打开了,就没必要在做打开。
2.通过命令打开
ulimit -c unlimited .然后通过步骤1，可以监测是否打开成功。
3.如果你要取消，很简单：ulimit -c 0 就可以了
通过上面的命令修改后，一般都只是对当前会话起作用，当你下次重新登录后，还是要重新输入上面的命令，所以很麻烦。我们可以把通过修改
/etc/profile文件来使系统每次自动打开。步骤如下：
1.首先打开/etc/profile文件
一般都可以在文件中找到这句语句：ulimit -S -c 0 /dev/null
2&1.ok，根据上面的例子，我们只要把那个0 改为
unlimited 就ok了。然后保存退出。
2.通过source /etc/profile 使当期设置生效。
3.通过ulimit -c 查看下是否已经打开。
其实不光这个命令可以加入到/etc/profile文件中，一些其他我们需要每次登录都生效的都可以加入到此文件中，因为登录时linux都会加载此文件。比如一些环境变量的设置。
还有一种方法可以通过修改/etc/security/limits.conf文件来设置，这个方法没有试过，也是网上看到。不过上面两种就可以了！
最后说一下生成core
dump文件的位置，默认位置与可执行程序在同一目录下，文件名是core.***，其中***是一个数字。core
dump文件名的模式保存在/proc/sys/kernel/core_pattern中，缺省值是core。通过以下命令可以更改core
dump文件的位置(如希望生成到/tmp/cores目录下)
echo “/tmp/cores/core”
/proc/sys/kernel/core_pattern
设置完以后我们可以做个测试，写个程序，产生一个异常。然后看到当前目录会有个core*的文件。然后我们可以
gdb core。* 程序进行调试。

← 上一篇: 学it,学IT工作好找吗下一篇: python+selenium+pytest+allure,Pytest测试框架知识→

coredump文件分析,如何排查大型C程序中的内存写越界导致的coredump

coredump文件分析,如何排查大型C程序中的内存写越界导致的coredump详细介绍

相关文章：

文章数据信息: