公司信息系统的几次严重故障

公司维护着几套web应用以供不同生产经营活动使用,用户数量不多,内部、外部加一起日均用户量不足一万人(pv约10万),但都是生存过程必须的。

这几套系统虽然用户反馈的口碑一般,单就胜任本职工作来说也还过得去,但运维从去年开始陆续出现各种问题。

第一次出问题

去年一个重要应用的数据库硬盘坏了,有备份,具体情况不太清楚,总之等到恢复正常,服务已中断了约半天时间。

第二次出问题

这一次来的也算巧合,去年下半年某一天路由器坏了,直接导致域名无法解析,重新购买设备要走流程,服务中断两天一夜,电话都打到老板那里了…期间光是听服务器的IP地址都听得倒背如流了。

第三次出问题

这次的问题实在愚蠢低级,今年上半年一大早运维还没上班就有人反映“网站打不开了”,运维慌了,刚开始以为是服务器挂了,一翻检查发现没有问题,很快问题被一个非运维同事发现了:域名过期未及时续费,被注册商暂停了,还挂了广告。赶紧联系管理域名的人续费,续费后竟然没有立马生效,联系注册商客服答复DNS恢复生效可能要等上8-24小时,事实是足足等了当天一个工作日,一直到第二天才恢复正常访问。是不是觉得国内的域名服务商太可耻,就不提具体是哪家服务商了,毫不夸张地说,这期间该注册商光是靠给此域名挂广告所产生的收入就够这个域名继续续费5年了,公司方面的损失也足够域名续费到老板感叹钱没花完的那天了。

第四次出问题

也就是昨天早上“网站又不能访问了”,远在百里之外的机房,还是那个运维哥哥,还是熟悉的口吻,应该说这次是主动通知,大家最担心的硬盘和路由器都没坏,鉴于上次域名过期的教训,每个域名也都延长了续费时长,这次是域名转移。

忘了说了,公司域名用的是注册商提供的DNS解析服务。实在想不明白难道三个运维哥哥都没听说过DNSPOD么,改一下DNSPOD还能比捣鼓Tomcat、Oracle难么,主要原因应该是没人愿意承担责任,大概就抱着只要不出问题不管好坏的心态。往往公司为了省钱不愿在硬件上多投入,巧妇难为,硬件设备故障在所难免,连续两次如此低级严重的问题可以说运维哥哥根本就没有分析问题原因,更别提如何总结经验做好改进、预防和避免措施了,当然,这也与老板把主要精力放在其他方面不无关系。

发表评论