又见日志-从日志中的思考

煮酒品茶：文章写的比较烂，如果有更好的方案或者有啥错误的话请指出来，品茶在此谢过了。

前记：换新工作后，这边有另一个部门的同事打电话过来要协助。说操作系统启动不了。报错Duplicate or bad block in use!

询问过程：

1、稳定对方，问题发生了咱们不急慢慢解决，别脑袋短了思路。

2、询问对方是否有备份

答：是台SVN的机器，都有备份，是以前的老机器，重启后就一直进不去。

3、询问对方现象是怎样

答：一直进不去单用户模式，卡死在百分之60之后，香港服务器，操作系统是centos 5 x86机器，出问题前一直很少关注此机器，所以无法回答之前有哪些操作

4、询问此机器服务的重要级别

答：重要级别在他们中排的比较低，所以有大把时间找事情。

处理过程：

1、首先让发图到群里

：根据分析，是mount /dev/sys后触发/etc/fstab 中选项选描机器，最后检测到有坏块。初步分析可能是文件系统坏掉或者磁盘某些磁道坏了。

2、制定方案

：因为级别不重要并且有备份，所以很好处理。先让他进单用户模式，在ro 后面加single，多等会儿，服务器空间，让机器扫描完或者别的。进系统后fsck -a /dev/$(sda),如果实在进不去，最好用同发行版的光盘进入恢复模式，挂载硬盘之后再确认是否有重要数据，再次备份出来。在询问中得之他的硬盘使用年限为2年，一般5年就老出问题了。如果是5年了就直接换块新硬盘装系统恢复继续跑。如果硬盘还年轻就让他装完系统恢复跑着。把监控做好。

3、反馈

3.1 告之我已经进入系统（中午吃饭让他一直跑），网站空间，然后正在fsck修复。然后1个小时后修复成功。

3.2 告之我发现是硬盘使用量达到100%，出问题也有一部原因吧，心里在想难道没有做监控？最后通过du发现是tomcat 日志380G，nginx日志40G，单硬盘500G。瞧了一眼就发现很多问题。

3.3 让他备份日志，他说日志都不需要备份，最后给他讲了日志的重要性后，他还是决定删除，我就让他先删除2010年再册2012年的，发现基本没释放多少。最后他决定全删除，我也没反对。最后清空得到400G左右的空闲空间

3.4 让他再次重启确定进入系统是没有问题的。

3.5 让他做好监控

4、事后反馈

4.1 本以为事情到这里已经有段结尾了，对方又联系说要支持。一番询问下来得知tomcat日志又把磁盘写满了，我心在想有这么大的量吗？才一天。他告诉我是内网访问大造成的。最后告诉他这是tomcat的日志分割的作用，切分后不会把以前的内容删掉，所以是叠加。当然一想也不行，这么大的日志过来，谁也受不了。

4.2 他询问我有没有办法不要日志，我当然又是一通讲解，日志的作用。最后他还是坚持不要。哈哈，内网的也无所谓了，重要级别又不高。

4.3 最后把tomcat的日志名建了一个/dev/null的链接。写日志都写到空设备上面去。

4.4 这下事情应该有一个小段落了

5、反思

5.1 备份机制一定要做好，可以做做恢复迅练。

5.2 如果是我要搞这个事我会怎么做？监控没做好，一切问题都发现不了。

5.3 日志问题一定要解决，可以传到内网备份服务器上面。

5.4 如果重要级别高的话可以做个小RAID，坏块盘也没事。但前提也是要做好监控。

5.5 另外硬盘的年限就那么久，跑了5年了就让他去死吧。上了5年问题就会慢慢积多。

5.6 机器启动不了是为啥？linux操作很多都不需要重启的，如果你改了某些配置，但没让他生交效，等你下次重启时生效结果发现机器启动不了了，就跟服务一样，你改了配置文件，过几天你要改个配置，结果发现启动不了，你检查你今天改的配置你找的出问题？幸好有错误提示。

5.7 是否有个流程指导我们怎么操作这些事儿？

附图：

而这些目标凝结成希望的萌芽，在汗水与泪水浇灌下，绽放成功之花。

相关文章：

你感兴趣的文章：

标签云：