站长视角
用户至上

从昨日阿里云大规模宕机,盘点近年来著名的宕机事件

3月3日,阿里巴巴旗下阿里云发布通报称,华北2地域可用区C部分ECS服务器(云服务器)等实例出现IO HANG(IO不响应),经紧急排查处理后已全部恢复。

阿里云方面表示,目前已经全面排查其他地域及可用区,未发现此类情况。针对本次故障,将根据SLA协议(服务合同),尽快处理赔偿事宜。但阿里云并未公开详细的赔偿细节。

今天小编为大家盘点近年来各大著名宕机事件

01.2017年 1月26日,IBM

今年年初,IBM云的信用度受到影响,客户用于访问其Bluemix云基础架构(以前称为SoftLayer)的一个管理网站服务中断了数小时。

虽然底层基础架构没有真的出现故障,但用户发现他们无法管理自身的应用程序,添加或删除支持工作负载的云资源。

IBM表示该问题是由于一次接口升级造成,只是间歇性的。

02.2017年 1月31日,GitLab

GitLab极受欢迎的线上代码库——GibLab.com遭遇了18小时的服务中断,最终无法完全修复。故障原因是员工在维护过程中从错误的数据库服务器中删除了数据库目录。

一些客户的生产数据最终丢失,包括对项目,评论与帐户的修改。

该公司在事件后表示:“我们最合理的估计是此次影响了约5000个项目,5000个评论和700个新用户帐户。“

GitLab CEO在向用户道歉时称,“丢失生产数据是让人无法接受的”。

03.2017年 2月9日,Instapaper

亚马逊RDS服务上的MySQL数据库文件大小限制引发了Pinterest服务器的长时间宕机。

之后,这家社交化书签网站称,其工程师从来不知晓在2014年4月之前创建的数据库RDS容量限制为2TB,并且AWS服务也没有发出表内存储其“书签”即将超过该限制容量的警告信息。

经过一天多的时间,Instapaper(Pinterest在2016年收购的阅后即焚服务提供商)的服务恢复了对存档资料的受限访问,同时工程师们尽力恢复数据库的其它部分,四天后Instapaper完全恢复。

04.2017年 2月24日,Facebook

世界各地的一些用户Facebook账户被锁定了近三个小时,这让他们担心自己的帐户被劫持了。

Facebook给出的解释是为了预防黑客错将用户发送到恢复界面,让人觉得其他人登录了他们的帐户。而受影响的用户被阻止立即重新登录。

Facebook确认没有出现实际的安全漏洞。

这是那一周Facebook出现的第二次问题。几天前,有人还称他们无法看到自己发的动态。

05.2017年 2月28日, AWS

这次宕机事件极为轰动,相信大家对此记忆尤深。当时是一位AWS工程师试图调试亚马逊的弗吉尼亚数据中心S3存储系统,但输入了一个错误指令,导致许多互联网——包括诸如Slack,Quora和Trello等众多企业平台宕机4个小时。

亚马逊在事件后分析表示,该员工当时当时打算将一小部分用于计费过程的托管子系统服务器删除。然而,错误命令导致了更多的服务器脱机,包括为数据存储功能提供特定请求所需的一个子系统和另一个分配新存储空间的子系统。

亚马逊坐拥约三分之一的全球云市场,因此这次宕机事件重新引发了关于公有云的风险论。

06.2017年 3月16日,Microsoft Azure

微软Azure公有云出现超过8小时的存储可用性问题,主要影响到美国东部的客户。有些用户无法配置新的存储空间或访问本地现有资源。之后,一个微软工程团队确认原因为断电导致的存储集群不可用。

除此之外,微软还在Azure状态页上列出了一个软件错误,该错误影响跨多个服务的存储配置超过一个小时。

07.2017年 3月21日,Microsoft Office 365

由于用户身份验证问题,一些微软业务和消费者云服务,包括Office 365存储和电子邮件服务都无法访问。

宕机事件还使得客户无法访问OneDrive存储,Skype协作,Outlook电子邮件和Xbox Live等消费产品。

08.2017年 5月22日,在IBM云上的Lululemon

热门瑜伽网站Lululemon出现服务中断问题,其首席执行官将主要责任归咎于IBM的托管云服务。

Lululemon首席执行官,Laurent Potdevin在接受CNBC(美国全国广播公司财经频道)采访时直接指责在IBM云环境下电子商务销售额遭受了损失。并表示他的团队由于这个问题连续工作了36个小时,并已经向IBM CEO,Ginni Rometty表达了不满。

Potdevin在谈及对IBM云计算时称,“我们正在考虑我们的选择”。

09.2017年 6月19日,Microsoft Skype

主要分布在欧洲的微软Skype用户由于遭受明显的分布式阻断服务攻击,接连出现宕机问题。

6月19日,Skype用户开始抱怨多个小时的宕机问题。这次宕机持续到次日,用户在通信平台上无法连接,交流信息受阻。

虽然微软没有立即确认DDoS攻击的报道,但一个名为CyberTeam的黑客组织在推特上承认该事件是他们所为。

10.2017年 6月28日, 苹果iCloud

多个社交媒体反馈苹果iCloud Backup服务的可用性问题。苹果在系统状态页表示,iCloud Backup出现宕机的用户数量仅不到1%。

受影响的人无法从之前的备份中恢复iOS设备,问题持续了至少36个小时。而在未完成修复时会挂起恢复进程,开启设备保护数据的新备份没是有问题的。

11.谷歌云, 2月15日

2月15日,谷歌应用开发平台的出现了数据库故障引发了不少该平台客户的烦恼。

该问题于接近于中午12点时发生在Google Cloud Datastore上,这是为规模型用户设计的一款非关系型数据库。

在事故中,谷歌PaaS服务Google App Engine的用户经历了长达一小时的错误与延迟情况。

游戏玩家在这次事件中受波及最为严重,因为不少的热门在线游戏使用了谷歌服务。而像Pokemon Go和Snapchat也备受冲击。

12.AWS,2018年 3月2日

3月2日,AWS的宕机广泛影响了大量的Alexa语音助手的用户,并波及到了很多热门在线服务商,如Atlassian、Slack和Twilio。

稍后,亚马逊表示他们位于弗吉尼亚数据中心在早上遇到了强烈东北风暴的冲击,而使得网络连接出现了问题。

这场风暴切断了AWS北弗吉尼亚地区与两个东海岸运营商Equinix和CoreSite连接。

13.微软Office 365,2018年 4月6日

4月6日,大量欧洲、亚州和美国的微软客户的电子邮件账户出现了问题。

其中英国受影响最为巨大,由于Office 365的宕机,许多企业无法发送邮件与登录Skype。

一些用户报告说他们只能使用单点登录来登录那些办公生产力套件。

有些讽刺的是,这次事件距离微软发布全新Office 365安全保护功能后仅一天。

14.AWS,2018年 5月31日

5月31日,因北弗吉尼亚地区的数据中心中的硬件问题,该云巨头又一次出现了连接问题。

其影响时间大约为30分钟,在此期间用户报告说因硬件错误,所有的数据不能得以被全部再存储。

该宕机是“由数据中心和一些网络设备中的一些物理服务器上的电力事件引起的”,AWS在事后报告中写到。

AWS的核心EC2服务,Workspaces 虚拟桌面服务以及Redshift数据仓库服务都受到了影响。

15.微软Azure,2018年 6月17日

由热浪而引发的存储和网络中断使得欧洲的许多微软云客户在17,18日两日间与他们的数据分开了超过5小时的时间。

微软表示,在爱尔兰特别炎热的夏季里,一个在爱尔兰的数据中心恒温系统出现了问题。

16.谷歌,2018年 7月17日

在7月17日的下午,谷歌云的宕机使得Spotify和Snapchat等热门服务又不得不中断。

谷歌方面称,他们在中午就意识到了其负责均衡器的问题。宕机影响了谷歌的开发平台App Engine、Cloud Networking和Stackdriver,后者旨在为公有云用户提供绩效与数据诊断服务。

之后,谷歌发布了一项更新,表示由该事件导致的502问题已在下午1:05时得到解决。

17.亚马逊,2018年 7月16日

如同国内电商们的双十一一样,亚马逊在美国也创造了自己的购物节日Amazon Prime Day(亚马逊会员日)。

但是,在第四届亚马逊会员日当日的开幕仪式后几分钟,大规模的故障使得7月16日的销售陷入了瘫痪。

AWS的发言人表示,这些问题与AWS无关。

但是对于全球最大的电商网站来说,失败就是失败了,这个网站是在据说是世界上最领先的云上托管的。许多消费者乘兴而来败兴而归,得到的只有一个宕机通知。

但尽管如此,但该客户日的销售业绩仍然破了纪录

18.微软,2018年 9月5日

微软发现自己在9月的第一周就在两个方面出现了问题。

第一个是,9月5日全世界用户都遇到了部分时间时无法访问365 Outlook或Skype for Business的情况。用户报告说,当他们尝试登录微软时,他们会受到一条错误消息,说“受到限制”。

微软将这次终端归咎于Azure后端身份验证系统的更新问题。

与此同时,在4日到5日两天里,微软在圣安东尼奥的数据中心遭遇了雷击,这导致了美国中南部区域中Azure和Office 365服务的中断。

19.Facebook 2018年 11月12日、11月20日

对于社交网络巨头来说,11月是糟糕的一月,两次宕机事件影响了大量的企业协同产品用户。

包括Workplace协同工具在内的Facebook服务在11月12日出现宕机,在服务恢复前,其收到了数千起投诉。

短时间内,“FacebookDOWN”成为了Twitter上的热门话题。

仅仅一个多星期后,11月20日,Facebook又出现了一起宕机事件,这是Facebook自8月以来出现的第三起重大停机事件。

有3/4的用户报告称从早上8点到下午早些时候,他们遇到了全面宕机或登录困难问题。

20.微软,2018年 11月18日

据微软披露,11月18日,一些用户无法登录Azure和Office 365服务。

这次宕机影响了许多需要身份验证而登录云服务的用户,并横跨整个欧洲、亚太和美洲地区,从当地时间周日晚上11:39起开始影响Azure和Offic 365服务。

赞(0)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权, 转载请注明出处。
文章名称:《从昨日阿里云大规模宕机,盘点近年来著名的宕机事件》
文章链接:https://www.veidc.com/3338.html
【声明】:国外主机测评仅分享信息,不参与任何交易,也非中介,所有内容仅代表个人观点,均不作直接、间接、法定、约定的保证,读者购买风险自担。一旦您访问国外主机测评,即表示您已经知晓并接受了此声明通告。
【关于安全】:任何 IDC商家都有倒闭和跑路的可能,备份永远是最佳选择,服务器也是机器,不勤备份是对自己极不负责的表现,请保持良好的备份习惯。