微软在英国遭遇蓝屏问题,其全球用户受影响,导致电脑无法正常运行。欧盟对此事的看法并不一致。有人认为这是技术上的错误,而另一些人则认为这是由于环境问题或其他原因引起的。下一步应采取何种行动以防止此类事件再次发生将是关键问题。
文|最话FunTalk,作者|何,编辑|杨磊
“蓝屏事件”事件,微软终于给了一个说法。
7月22日,微软发言人在接受媒体采访时表示,欧盟的限制措施导致无法锁定Windows系统,这是此次全球蓝屏事件的原因之一。
微软所说的欧盟限制性措施,是指2009年,微软与欧盟达成协议。根据协议要求,微软承诺给予所有安全软件与微软自有软件一样的对Windows内核的访问权限,让像CrowdStrike这样的第三方安全软件开发商的安全产品可以通过Windows客户端和服务器系统中的API访问并执行极其复杂的操作。
微软认为这个政策的代价是系统安全性的降低,蓝屏死亡事件就是这个政策后果的体现。微软发言人抱怨道,“尽管公司希望进一步锁定操作系统以提高安全性,但欧盟的要求使这一目标难以实现。”
五天前的“蓝屏事件”确实影响巨大。7月18日,微软视窗系统全球严重宕机,电脑毫无征兆地陷入蓝屏状态。
办公室里,来自世界各地的白领拿着蓝屏显示器拍照,嘲笑微软让大家享受周五的假期。虽然社交平台上充斥着笑话,但蓝屏事件并不能真的算笑话。目前,操作系统几乎可以视为社会公共基础设施,宕机事故引发了一系列运营“灾难”。
除了办公室,很多机场、火车站、写字楼外面的显示屏都是“蓝色”,美国、德国、澳大利亚等地的机场几乎瘫痪,从值机柜台到登机口的导航显示屏都是“蓝色”。在此期间,仅美国就有2000多个航班停飞,5300多个航班延误。
除了交通行业,公共服务也受到了严重影响。电视台无法正常直播,医院挂号和病历系统无法使用,急救热线信息难以同步,患者无法救治。
据微软统计,在此期间,全球约有850万台设备受到影响。
面对2017年以来全球最大的宕机事件,人们先是指责微软,随后安全软件开发商CrowdStrike被认为是罪魁祸首。现在微软表示,欧盟是罪魁祸首。
01
2017年,勒索病毒WannaCry利用微软Windows系统漏洞攻击全球互联网。一旦电脑上的各种数据无法正常打开,病毒制造者就勒索价值约300美元的比特币。
相比WannaCry攻击者扑朔迷离的身份,此次宕机事故的原因并没有那么复杂,并不是有针对性的安全事件或网络攻击。
据报道,在线安全解决方案服务商CrowdStrike公司的猎鹰平台版本更新问题是导致此次混乱的直接原因。据说是猎鹰软件代码更新与Windows系统冲突导致代码错误,但在版本上线前的测试中并没有关注到这个问题。
蓝屏事件后,CrowdStrike股价暴跌11%,市值一夜蒸发近百亿美元,创下2022年以来最差单日表现。
根据市场研究机构IDC的数据,成立于2011年的CrowdStrike占据了价值86亿美元的EDR软件市场的18%,仅次于微软。
CrowdStrike是一家人工智能驱动的安全解决方案公司。该公司的猎鹰平台使用人工智能和机器学习技术来检测、预防和应对网络威胁。软件需要更深入地访问计算机的操作系统来扫描威胁,这种访问使它有能力破坏他们试图保护的系统。
猎鹰是a到B的服务软件,每台机器的安装费都在50美元以上。中小型公司,或者电脑不能被严重攻击的公司,出于成本考虑不会配备,只有对网络安全要求高的企业才会配备。截至2024年底,CrowdStrike的客户遍布170多个国家,总数超过29000家,其中超过500家是财富1000强企业。
这也意味着安装了该软件的计算机是最需要保护的计算机。如果它们停机,关键服务也会停机。
在业内人士看来,这起事故并不是复杂的技术问题,而更像是海涅定律得到了应验——每一起重大事故看似偶然,实则是各种不安全因素累积的结果。
美国网络安全和基础设施安全局局长简·伊斯特利(Jane easterly)评论说,这是一起严重影响全球关键基础设施运行的重大事件。虽然没有恶意,但却是“一个严重的错误”。
目前,全球互联网的关键基础设施高度数字化、相互依存、互联互通,软件生态系统的保护不到位,导致系统具有高度脆弱的特性,单个bug就能引起一系列反应。
某种程度上,在建网空的过程中,对速度的迫切需求使得很多从业者的安全运营意识在执行层面并不到位。
简单来说,CrowdStrike周五更新是一个不明智的决定。万一有问题,周末需要加班。对于关注WLB的美国人来说,周末的效率远不如工作日,你甚至可能联系不上他们。
“蓝屏事件”后,据媒体报道,至少有75家客户已经计划向CrowdStrike提出索赔,以解决停机事故造成的连锁问题。
02
为解决问题,微软积极采取实施流量重定向、修复策略验证和缓解措施尽快恢复运行,并于当日解决技术问题,并多次强制要求受影响设备不超过所有使用Windows系统设备的1%,试图弱化事故的严重性。
事件发生后,微软很委屈,提出事故不是微软直接造成的,现在又在责怪15年和欧盟达成的协议。这也暗示了苹果和谷歌没有受到类似的限制。苹果在2020年停止向开发者提供内核级访问,给开发者带来不便的同时,也提高了系统稳定性。
苹果和谷歌各自操作系统的市场份额非常低。据知名机构StatCounter统计,截至2023年12月底,微软的windows占据了全球桌面操作系统72.72%的份额,是名副其实的互联网基础设施提供商。
份额越大,责任越大。虽然该事件是由CrowdStrike直接导致的,且访问权限是欧盟要求的,但对系统上运行的程序缺乏必要的控制措施或备份计划,显然是微软的失职。
比如微软的操作系统就是通往用户的高速公路,软件供应商就是路上的各种车。一旦发生事故,不可能所有人都抛开道路,只谈车。如何开车上路,道路管理方也要拿出一个规范的方案。即使车辆出现问题,也不会导致整个路网瘫痪。
2023年11月,微软在内部发布了《安全未来倡议》(Secure Future Initiative),强调要在三个方面做出努力:基于AI的安全防御、加强基础软件工程和更安全的国际规范。当时微软强调要用AI的速度打败网络攻击。
而且正是因为欧盟的规定给了第三方安全软件开发者充分的权限,所以微软需要做好充分的准备,要求第三方安全软件开放商严格执行软件更新协议,留有冗余,提高IT人员的应急处理能力。
显然,作为全网基础服务提供商,微软的制度建设有了很大的提升空。
因此,也就不难理解为什么外界一直没有放过攻击微软的机会,尤其是一直对微软不满的全球网络名人马斯克率先发难。
据报道,在停工期间,特斯拉报告美国超级工厂出现设备错误,一些工人看到系统停止运行,选择提前下班。当时,马斯克在个人账户中直接向微软CEO纳德拉喊话,抱怨微软的失败对全球汽车供应链造成了影响。此外,马斯克还自豪地吹嘘他的X平台没有受到影响。
不过,马斯克可能笑得太早了,未来特斯拉的系统被强行打开时,他要做好充分的准备,否则“蓝屏事件”未必不会发生在特斯拉身上。
03
这几年一路跑,一个科技行业,向前看,缺乏回过头巩固基础服务和制度建设的耐心。例如,所有的科技公司都在强调AI能力,他们反复宣传AI技术要“融入生活的方方面面”,“无缝融入每一个应用”,意图触及社会的每一个角落。
旧的不如新的,新的受重视,而基础服务和基础设施似乎“老套”,不值得大量投资。快速迭代也意味着快速淘汰。近年来,不仅很多智能新品受到短暂追捧,很多基础服务也越来越缺乏维护。“蓝屏事件”说明了这种“喜新厌旧”的后果。
另一方面,这一事件也显示了高度互联的网络过于依赖单一基础技术服务提供商的风险。
目前,大型企业应配备备用通信链路,以确保有效响应和快速恢复的能力,并最大限度地减少对关键服务的干扰。如何在系统出现故障的情况下守住安全底线,能否在没有辅助工具的情况下保证核心业务的运行,是所有企业管理者都应该思考的问题。
网络安全不再是一个商业问题。
“当全球大部分地区都在纠结微软蓝屏的时候,中国基本毫发无损。”这是自媒体的感叹。
对于国内用户来说,微软蓝屏事件更像是大洋彼岸的新闻,没有什么真实的感受。从社交媒体的角度来看,只有少数外国公司受到了影响。
但实际上windows系统在中国的市场占有率也很高,但很多运行的windows系统都是盗版,没有升级,CrowdStrike在中国也没有销售。所以中国运行windows系统的电脑逃过一劫。
事件发生后,国内各大官媒纷纷评论网络基础设施的重要性,进一步表明中国在信息时代必须走自主可控的发展道路。
网络名人周,360的创始人,甚至在他的个人账户上发布了一个视频,称计算机网络安全必须掌握在自己手中,杀毒软件必须是国产品牌。“假设有一天在大国游戏中,某公司假装升级出错,然后系统出现蓝屏,那么电脑死机不上班就不是问题了。”
在强调自主可控的大背景下,这种担忧是很多人认可的。
如果欧盟强制微软向第三方安全软件开发者开放API,让他们可以访问并执行极其复杂的操作,是反垄断措施,显示了微软的管辖和控制力,那么经过这次事件,各国也会重新思考自己的网络基础设施保护和管理能力。
从务实的角度来看,全球科技行业的规则制定权仍然掌握在欧美手中。中国和美国在硬实力上确实有差距,公司在调动资源上也不如硅谷领袖。但自主开发的目标不是尽力成为行业第一,而是给国内用户更多的选择,关键时刻不受制于人。
一家公司的一个小小的失误造成了世界范围的停工,这让所有国家都深感忧虑。这次蓝屏事件绝对不会是最后一次全球宕机,网络安全需要时刻保持警惕。