2015年2月13日服务器无法访问事故记录以及经验总结

服务器最近迁机房,然后访问很不稳定,排除了机房的网络原因后,判断是服务器故障,因此需要去机房现场维护。

本人是一名全栈工程师Full Stack Developer,技能包括:服务器运维,后端软件开发,前端软件开发,产品设计。最近写产品设计的文章比较多,这里说明一下,免得让很多好友以为我改行了。

事故的现象是:ping不通,ssh失败,网站无法访问。因为之前遇到过类似的情况,所以基本上判断是路由表出错。插一句:当我开始做产品设计的时候,很多产品设计师都说产品设计工作的血泪经历,这时候,我只能说,那你是没见到运维工作有多惨!产品设计再惨也是没上线之前,而运维事故都是上线之后,,所有的人都停下手里的工作等着你解决问题,所以每一个经验上的判断差不多都是这样的血泪经历换来的。

接下来说说机房,之前的机房在河北,提供KVM支持,KVM是Keyboard Video Mouse的缩写,也就是可以通过网络虚拟连接键盘、鼠标、显示器。现在的机房在北京,东北五环,没有提供这些支持,交通也方便。如果把服务器放在外地,就一定要问清是否方便的提供KVM,有的机房不提供,维护一次的交通费用就超过了两地机房费用的差额了,所以不要为了省几百元就放在外地,特别是生产主力服务器,一旦事故,跑过去就要半天,带来的损失比一年的费用都搞,得不偿失,而且外地交通不便,去了可能当天就需要住在那边了,而且有些机房的附近还没有方便的生活配套措施。之前工作中距离最近的时候是从西二旗的写字楼到西二旗的机房。不过现在机房越建越大,这种在写字楼或者写字楼小区中的机房越来越少了,所以距离是选择机房的主要因素之一。

去机房前需要问清楚允许维护的时间,例如现在处于春节假期,从今天起(2月14日)就禁止现场维护了,因此昨天下午是节前最后的维护期限,否则又需要等到春节后了。

即使在北京,也需要注意交通,虽然人工维护不需要带设备,但是机房的位置一般交通不是特别方便,例如这个机房在酒仙桥附近,我就按照地址打车去,结果司机没有听过这个园区,后来走进了才知道这个地方是以前的松下电视机厂,老司机只知道这个地名。当然了新司机可能既不知道新的名字,也不知道原来的松下电视机厂。机房所在园区很大,需要车开进去。

每个机房的门禁管理方式不同,应提前问好,这个机房只查验登记过的身份证,之前有机房既要查验身份证,也需要查验工卡,临时维护就需要提前准备好自制工卡。

每个机房的内部管理不同,这个机房的分区门进出都需要工作人员带领,长时间维护就需要问好出门的联系方式并测试手机的信号,否则关在机房里面出不来就真的麻烦了。之前也有机房只有进门需要带领,可以自己出。

进了分区后,找到服务器也要看机房的管理措施。之前的管理都是在服务器上贴IP标签,这个机房禁止贴,因此上服务器时应准备好足够明显的标识,特别是可能不同的人员维护的情况。

然后向机房管理员索取外设,因为是linux命令行所以只需要键盘显示器即可,因为大部分维护都是这种情况,所以这两个设备应该都是好的。如果需要进入linux图形界面,或者是windows的话,可能会遇到鼠标坏的情况,这时就需要向机房索取鼠标,当然最好自带一个鼠标。

然后登录顺利,这就放心了,开始检查,相关的资料最好自带笔记本电脑或者平板电脑,都离线保存好,这样在现场查询方便,因为虽然机房有方便的网络接入,但是不一定自带设备能方便接入,因为至少需要有空闲iP吧,所以不要习惯上的想上网查资料。如果一定需要上网,可能就需要手机了,手机信号不一定好,而且手机做热点时,电脑可能会当成wifi什么流量都跑。

因为和之前的情况类似,直接定位为路由表出错,查询ip配置发现是手工配置后,再次使用图形化的配置界面导致的出错,修改后重新启动网络服务恢复正常,重新启动电脑恢复正常。

最后打电话通知机房管理员带领出门。

计划2015年每天写一篇文章

提问请移步

拿望远镜看别人,拿放大镜看自己。

2015年2月13日服务器无法访问事故记录以及经验总结

相关文章:

你感兴趣的文章:

标签云: