互联网模式的企业如何运维IT系统(一)

难、难、难,不少人都摇头,确实因为实际困难太多,不确定因素太多,用户访问的高峰期不好预测,用户的访问偏好要事后才能分析,突发新闻或事件或帖子让峰值突然出现,企业的资源设备有限,各软硬件的疲劳期不好预测,每个业务系统都对维护有高要求,有时只能顾一部分,遇到突发事件,各领导电话和指示不断等等,确实是一件不好干的活,今年刚过去的春节抢红包这个热点顺利通过,应该为这些节假日坚守岗位的运维人致敬,他们到底是怎么做的呢,看看事件整个过程:2015年微信红包,除夕摇一摇总次数110亿次,峰值1400万次/秒,8.1亿次每分钟,微信红包收发达10.1亿次!惊人数字的背后,腾讯是怎么支撑的,今年微信红包方式与去年用户与用户之间互发红包相比,摇红包的方式对业务量来说是一个极大的爆发,光是除夕10:30送出的一波红包就达到了1.2亿个,已经是2014年除夕夜峰值的4800倍之巨(2014年峰值每分钟被拆开红包数量仅2.5W个)!

困难是显而易见的,但难点在哪呢,微信团队总结下来有三大难点:快——如何保证用户快速摇到红包?准——如何保证摇到的红包能成功拆开?稳——如何保证拆开的红包能分享出去?

大量用户在同一时间摇红包,瞬间产生每秒千万级的请求,这个量级的请求如果不加以疏导处理直接到达后台,必定会导致后端服务过载甚至崩溃。上文中除夕当天后台监控数据曲线便能说明一切——在前台重重的分流减压下,后台服务器负载仍然瞬间飙升十倍以上。

要保障提供的IT服务让大多数用户满意,我以为微信(社交网络事业群)做了以下功夫:

1.组织保障,组成项目组式的混合保障人员组,有红包策划推广人员、开发人员、中间件及系统软件人员、网路硬件维护人员,当然还有通盘全局的负责人。

2.厘清了各业务的重要等级,非重要等级为微信,,特别是给摇红包让路。

3.所有人员懂业务,清楚目标和任务要求。

4.事先应有充分的策划和演练,关键节点优化和重新设计,如微信团队既定的方针,有损服务,柔性可用,大系统小做。关于这个微信团队有自己的阐述,这里不再赘述。

5.有了应急预案和备份措施。

6.在可能的情况下公司提供一定的冗余资源。

7.加强对用户的宣传教育,让用户有一定心理预期,并可以理解。

其实就是做到了“科学化、透明化、人本化”的运维。总之,为他们点个赞。

战胜困难,走出困境,成功就会属于你。

互联网模式的企业如何运维IT系统(一)

相关文章:

你感兴趣的文章:

标签云: