在全球依赖云计算的今天,亚马逊AWS的任何一次抖动,几乎都意味着互联网世界的一次地震。
就在美西时间10月20日下午,一场毫无预兆的互联网大崩溃事件真的席卷了全球。
并且持续超过15个小时,波及了全球数以千万计、各行各业的企业与用户。
此次受到影响的主要产品包括亚马逊旗下网站、多邻国、Snapchat、Reddit、迪士尼+、Apple TV、Roblox、堡垒之夜、Steam、PlayStation、Xbox、育碧、Cursor、Docker、Postman等热门网站。
Robinhood、Coinbase、英国银行系统等在内的金融和支付行业也遭到波及,影响了数百万用户的日常交易。
甚至连航空领域都受到了影响,有网友表示,因为亚马逊网络服务终端,自己乘坐的飞机都无法正常停靠,只能等待。
美国联合航空和达美航在声明中表示,亚马逊全球故障干扰了其应用和网站访问,一些内部系统也暂时受到影响。
业内形容此次宕机为“半个互联网陷入不可用状态”,波及范围之广,堪称近年来最严重的AWS事件之一。
还有网友调侃称,“亚马逊打个喷嚏,半个互联网都感冒了。”
故障根源方面,亚马逊云服务官方指出,故障发生在该公司位于弗吉尼亚州北部的庞大数据中心区域US-EAST-1。
US-EAST-1是其运营历史最久、规模最大、最繁忙的数据中心集群,许多全球性的应用程序和网站都托管于此。
问题与“DynamoDB API的DNS解析”有关,即系统无法正确找到名为DynamoDB的关键数据库服务的网络地址。
值得质疑的是,这也是过去五年中,亚马逊US-EAST-1数据中心区域至少第三次引发大规模互联网瘫痪,亚马逊并未解释为何该数据中心屡次出问题。
亚马逊此次承认了“网络连接问题”和“DNS解析失败”,但没有解释为什么一个监控子系统的故障会导致如此大规模的崩溃。
专家指出,这次事故再次暴露出现代社会的脆弱现实。
互联网如今就像水电一样,是我们生活的基础设施。
如今全球的网络世界几乎都依赖于三到四家大型云计算公司(如亚马逊、谷歌、微软等)所提供的底层基础设施。
一旦其中之一出问题,就会在全球范围内造成巨大混乱。
并且普通用户往往根本无法判断发生了什么,
不过,也有业内人士认为,往好处想,这类问题通常能相对快速解决,目前也没有迹象表明这是网络攻击或黑客事件。
只是某个系统出了问题的话,这类大型云服务商都有一套完善的应急流程来处理此类宕机事件,通常几个小时就能恢复,而非几天。
截至北京时间凌晨1点,亚马逊部分服务已开始逐步恢复。