使用 watchdog 构建高可用性的 Linux 系统及应用

周 婷 (moting9@gmail.com), 软件工程师, IBM 中国系统技术实验室

周婷,软件工程师,目前在 IBM 中国系统技术实验室从事服务器管理固件的开发工作

简介: Linux 在不同领域如电信、终端便携设备等得到广泛应用,不同领域的应用对 Linux系统也提出相应的需求。Carrier Grade Linux 是 OSDL(Open Source Development Lab)发布的电信级 Linux 的标准,在系统可用性这部分指出 Linux 必须支持 watchdog 机制。Linux 内核从 1.3.51 版本开使提供硬件、软件 watchdog 驱动。随着内核的发展,Linux 对不同类型的硬件 watchdog 卡提供了广泛的支持。本文首先介绍 Linux 内核对硬件、软件 watchdog 的支持;然后通过一个开源项目watchdog daemon介绍如何在一个系统监控应用中加入 watchdog 的使用以提高系统的可用性,以及如何在一个 Linux 服务应用中加入watchdog 模块以提高应用的可用性。

1 Linux对Watchdog的支持

1.1 Linux下watchdog的工作原理

Watchdog在实现上可以是硬件电路也可以是软件定时器,能够在系统出现故障时自动重新启动系统。在Linux 内核下, watchdog的基本工作原理是:当watchdog启动后(即/dev/watchdog 设备被打开后),如果在某一设定的时间间隔内/dev/watchdog没有被执行写操作, 硬件watchdog电路或软件定时器就会重新启动系统。

/dev/watchdog 是一个主设备号为10, 从设备号130的字符设备节点。 Linux内核不仅为各种不同类型的watchdog硬件电路提供了驱动,还提供了一个基于定时器的纯软件watchdog驱动。 驱动源码位于内核源码树drivers\char\watchdog\目录下。

1.2 硬件与软件watchdog的区别

对于应用程序而言, 操作软件、硬件watchdog的方式基本相同:打开设备/dev/watchdog, 在重启时间间隔内对/dev/watchdog执行写操作。即软件、硬件watchdog对应用程序而言基本是透明的。

在任一时刻, 只能有一个watchdog驱动模块被加载,管理/dev/watchdog 设备节点。如果系统没有硬件watchdog电路,可以加载软件watchdog驱动softdog.ko。

1.3 Linux内核中关于watchdog的配置

在Linux下使用watchdog开发应用之前, 请确定内核已经正确地配置支持watchdog。内核源码下的drivers/char/watchdog/Kconfig文件提供了各种watchdog配置选项的详细介绍。特别指出关于‘CONFIG_WATCHDOG_NOWAYOUT’选项的配置,从清单1软件watchdog的模块信息可以看到,nowayout参数的缺省值等于‘CONFIG_WATCHDOG_NOWAYOUT’, 如果‘CONFIG_WATCHDOG_NOWAYOUT’选项在内核配置时设为‘Y’, 缺省情况下,watchdog启动后(即/dev/watchdog被打开后),无论是执行close操作还是写入字符‘V’都不能停止watchdog的运行。

清单 1. 软件watchdog驱动softdog的模块信息

linux-mach:~ # modinfo softdogfilename:/lib/modules/2.6.16.21-0.8-smp/kernel/drivers/char/watchdog/softdog.koauthor:Alan Coxdescription: Software Watchdog Device Driverlicense:GPLalias:char-major-10-130vermagic:2.6.16.21-0.8-smp SMP 586 REGPARM gcc-4.1supported:yesdepends:srcversion:EAE9E5688843C073B0EF5BCparm:soft_noboot:Softdog action, set to 1 to ignore reboots, 0 to reboot(default depends on ONLY_TESTING) (int)parm:nowayout:Watchdog cannot be stopped once started(default=CONFIG_WATCHDOG_NOWAYOUT) (int)parm:soft_margin:Watchdog soft_margin in seconds.(0<soft_margin<65536, default=60) (int)

1.4 watchdog重启时间间隔设定

在开发应用之前,必须了解所用的watchdog驱动的重启时间间隔。各种硬件以及软件watchdog驱动都设有一个缺省的重启时间间隔,此重启时间间隔也可在加载驱动模块时设置。

从清单1软件watchdog的模块信息可以看到,,soft_margin参数代表了softdog.ko的重启时间间隔,缺省值是60秒,可以在加载softdog.ko 时指定重启时间间隔, 如 `modprobe softdog soft_margin=100`。

1.5 watchdog启动

各种硬件以及软件watchdog驱动都为应用提供了相同的操作方式。打开/dev/watchdog设备,watchdog将被启动。如果在指定重启时间间隔内没有对/dev/watchdog执行写操作,系统将重启。

清单 2. 启动watchdog的代码段

int wdt_fd = -1;wdt_fd = open(“/dev/watchdog”, O_WRONLY);if (wdt_fd == -1){// fail to open watchdog device}

1.6 watchdog停止

如果内核配置选项‘CONFIG_WATCHDOG_NOWAYOUT’设为‘Y’, 缺省情况下watchdog启动后不能被停止。 如果模块的nowayout参数设为0, 往/dev/watchdog 写入字符`V’ 可以使watchdog停止工作。可以参考参考文献二2.6内核源码drivers\char\watchdog目录下各种硬件及软件watchdog驱动的write函数得到停止watchdog的逻辑, 譬如软件watchdog驱动softdog.c 中的write函数。

参考文献三watchdog daemon源码 watchdog-5.4.tar.gz的 close_all函数提供了停止watchdog运行的范例。以下是一个简单的停止watchdog的代码段范例:

清单 3. 停止watchdog的代码段

if (wdt_fd != -1){write(wdt_fd, “V”, 1);close(wdt_fd);wdt_fd = -1;}

1.7 watchdog运行

从1.6节中提到的softdog模块的write函数可以看到,在watchdog重启时间间隔内执行写操作,softdog_keepalive将被调用,增加定时器定时时间。

所以应用在启动watchdog后,必须在重启时间间隔内,周期性地对/dev/watchdog执行写操作才能使系统不被重启。

参考文献三watchdog daemon源码 watchdog-5.4.tar.gz的keep_alive函数提供了保持watchdog运行的范例。以下是一个简单的保持watchdog运行的代码段范例:

清单 4. 保持watchdog运行的代码段

if (wdt_fd != -1)write(wdt_fd, “a”, 1);

爱上一个人的时候,总会有点害怕,怕得到他;怕失掉他。

使用 watchdog 构建高可用性的 Linux 系统及应用

相关文章:

你感兴趣的文章:

标签云: