LINUX core dump详解 - 编程开发

1. 前言:有的程序可以通过编译, 但在运行时会出现Segment fault(段错误). 这通常都是指针错误引起的.但这不像编译错误一样会提示到文件->行, 而是没有任何信息, 使得我们的调试变得困难起来.2. gdb:有一种办法是, 我们用gdb的step, 一步一步寻找.这放在短小的代码中是可行的, 但要让你step一个上万行的代码, 我想你会从此厌恶程序员这个名字, 而把他叫做调试员.我们还有更好的办法, 这就是core file.3. ulimit:如果想让系统在信号中断造成的错误时产生core文件, 我们需要在shell中按如下设置:#设置core大小为无限ulimit -c unlimited#设置文件大小为无限ulimit unlimited这些需要有root权限, 在ubuntu下每次重新打开中断都需要重新输入上面的第一条命令, 来设置core大小为无限.4. 用gdb查看core文件:下面我们可以在发生运行时信号引起的错误时发生core dump了.发生core dump之后, 用gdb进行查看core文件的内容, 以定位文件中引发core dump的行.gdb [exec file] [core file]如:gdb ./test test.core在进入gdb后, 用bt命令查看backtrace以检查发生程序运行到哪里, 来定位core dump的文件->行.

当我们的程序崩溃时，内核有可能把该程序当前内存映射到core文件里，方便程序员找到程序出现问题的地方。最常出现的，几乎所有C程序员都出现过的错误就是“段错误”了。也是最难查出问题原因的一个错误。下面我们就针对“段错误”来分析core文件的产生、以及我们如何利用core文件找到出现崩溃的地方。

何谓core文件

当一个程序崩溃时，在进程当前工作目录的core文件中复制了该进程的存储图像。core文件仅仅是一个内存映象(同时加上调试信息)，主要是用来调试的。

当程序接收到以下UNIX信号会产生core文件：

名字

说明

ANSI C POSIX.1

SVR4 4.3+BSD

缺省动作

SIGABRT

异常终止(abort)

. .

终止w/core

SIGBUS

硬件故障

. .

终止w/core

SIGEMT

硬件故障

. .

终止w/core

SIGFPE

算术异常

. .

终止w/core

SIGILL

非法硬件指令

. .

终止w/core

SIGIOT

硬件故障

. .

终止w/core

SIGQUIT

终端退出符

. .

终止w/core

SIGSEGV

无效存储访问

. .

终止w/core

SIGSYS

无效系统调用

. .

终止w/core

SIGTRAP

硬件故障

. .

终止w/core

SIGXCPU

超过CPU限制(setrlimit)

. .

终止w/core

SIGXFSZ

超过文件长度限制(setrlimit)

. .

终止w/core

在系统默认动作列，“终止w/core”表示在进程当前工作目录的core文件中复制了该进程的存储图像（该文件名为core，由此可以看出这种功能很久之前就是UNIX功能的一部分）。大多数UNIX调试程序都使用core文件以检查进程在终止时的状态。

core文件的产生不是POSIX.1所属部分,而是很多UNIX版本的实现特征。UNIX第6版没有检查条件(a)和(b)，并且其源代码中包含如下说明：“如果你正在找寻保护信号，那么当设置-用户-ID命令执行时，将可能产生大量的这种信号”。4.3 + BSD产生名为core.prog的文件，其中prog是被执行的程序名的前1 6个字符。它对core文件给予了某种标识，所以是一种改进特征。

表中“硬件故障”对应于实现定义的硬件故障。这些名字中有很多取自UNIX早先在DP-11上的实现。请查看你所使用的系统的手册，以确切地确定这些信号对应于哪些错误类型。

下面比较详细地说明这些信号。

?SIGABRT调用abort函数时产生此信号。进程异常终止。

?SIGBUS指示一个实现定义的硬件故障。

?SIGEMT指示一个实现定义的硬件故障。

EMT这一名字来自PDP-11的emulator trap 指令。

?SIGFPE此信号表示一个算术运算异常，例如除以0，浮点溢出等。

?SIGILL此信号指示进程已执行一条非法硬件指令。

4.3BSD由abort函数产生此信号。SIGABRT现在被用于此。

?SIGIOT这指示一个实现定义的硬件故障。

IOT这个名字来自于PDP-11对于输入／输出TRAP(input/output TRAP)指令的缩写。系统V的早期版本，由abort函数产生此信号。SIGABRT现在被用于此。

?SIGQUIT当用户在终端上按退出键（一般采用Ctrl-\）时，产生此信号，并送至前台进

程组中的所有进程。此信号不仅终止前台进程组（如SIGINT所做的那样），同时产生一个core文件。

?SIGSEGV指示进程进行了一次无效的存储访问。

名字SEGV表示“段违例（segmentation violation）”。

?SIGSYS指示一个无效的系统调用。由于某种未知原因，进程执行了一条系统调用指令，

但其指示系统调用类型的参数却是无效的。

?SIGTRAP指示一个实现定义的硬件故障。

此信号名来自于PDP-11的TRAP指令。

?SIGXCPUSVR4和4.3+BSD支持资源限制的概念。如果进程超过了其软C P U时间限制，则产生此信号。

?SIGXFSZ如果进程超过了其软文件长度限制，则SVR4和4.3+BSD产生此信号。

摘自《UNIX环境高级编程》第10章信号。

使用core文件调试程序

看下面的例子：

/*core_dump_test.c*/#include <stdio.h>const char *str = "test";void core_test(){ str[1] = ‘T’;}int main(){ core_test(); return 0;}

编译：gcc–g core_dump_test.c -o core_dump_test

如果需要调试程序的话，使用gcc编译时加上-g选项，这样调试core文件的时候比较容易找到错误的地方。

执行：./core_dump_test段错误

运行core_dump_test程序出现了“段错误”，但没有产生core文件。这是因为系统默认core文件的大小为0，所以没有创建。可以用ulimit命令查看和修改core文件的大小。ulimit -c0ulimit -c 1000ulimit -c1000

-c指定修改core文件的大小，1000指定了core文件大小。也可以对core文件的大小不做限制，如：

ulimit -c unlimitedulimit -cunlimited

如果想让修改永久生效，则需要修改配置文件，如.bash_profile、/etc/profile或/etc/security/limits.conf。

再次执行：./core_dump_test段错误(core dumped)ls core.*core.6133

可以看到已经创建了一个core.6133的文件.6133是core_dump_test程序运行的进程ID。

调式core文件core文件是个二进制文件，需要用相应的工具来分析程序崩溃时的内存映像。

file core.6133

core.6133: ELF 32-bit LSB core file Intel 80386, version 1 (SYSV), SVR4-style, from ‘core_dump_test’

在Linux下可以用GDB来调试core文件。

gdb core_dump_test core.6133

GNU gdb Red Hat Linux (5.3post-0.20021129.18rh)Copyright 2003 Free Software Foundation, Inc.GDB is free software, covered by the GNU General Public License, and you arewelcome to change it and/or distribute copies of it under certain conditions.Type "show copying" to see the conditions.There is absolutely no warranty for GDB. Type "show warranty" for details.This GDB was configured as "i386-redhat-linux-gnu"…Core was generated by `./core_dump_test’.Program terminated with signal 11, Segmentation fault.Reading symbols from /lib/tls/libc.so.6…done.Loaded symbols for /lib/tls/libc.so.6Reading symbols from /lib/ld-linux.so.2…done.Loaded symbols for /lib/ld-linux.so.2#0 0x080482fd in core_test () at core_dump_test.c:77 str[1] = ‘T’;(gdb) where#0 0x080482fd in core_test () at core_dump_test.c:7#1 0x08048317 in main () at core_dump_test.c:12#2 0x42015574 in __libc_start_main () from /lib/tls/libc.so.6

GDB中键入where，就会看到程序崩溃时堆栈信息（当前函数之前的所有已调用函数的列表（包括当前函数），gdb只显示最近几个），我们很容易找到我们的程序在最后崩溃的时候调用了core_dump_test.c第7行的代码，导致程序崩溃。注意：在编译程序的时候要加入选项-g。您也可以试试其他命令，　如　fram、list等。更详细的用法，请查阅GDB文档。

core文件创建在什么位置

在进程当前工作目录的下创建。通常与程序在相同的路径下。但如果程序中调用了chdir函数，则有可能改变了当前工作目录。这时core文件创建在chdir指定的路径下。有好多程序崩溃了，我们却找不到core文件放在什么位置。和chdir函数就有关系。当然程序崩溃了不一定都产生core文件。

什么时候不产生core文件

在下列条件下不产生core文件：( a )进程是设置-用户-ID，而且当前用户并非程序文件的所有者；( b )进程是设置-组-ID，而且当前用户并非该程序文件的组所有者；( c )用户没有写当前工作目录的许可权；( d )文件太大。core文件的许可权(假定该文件在此之前并不存在)通常是用户读/写，组读和其他读。

利用GDB调试core文件，当遇到程序崩溃时我们不再束手无策。

人生伟业的建立，不在能知，乃在能行。

相关文章：

你感兴趣的文章：

标签云：