事故关键词:疫情和COVID-19直接有关的软件事故是英国国家卫生服务系统(NHS)[II]。该系统的新冠病毒应用程序出现软件设置错误,导致数千人在接触冠状病毒感染者后没有被告知自我隔离。这是一起由软件应用没有及时更新导致的事故,该应用的设置算法在最初的软件发布后一两个月都没有更新。而在这段时间里,风险阈值被提高了,但没有在软件中反映出来,因此没有警告人们潜在的感染危险。同时,由于疫情,人们对于基于互联网的沟通、协作方式的需求激增,让互联网和软件服务在短时间内遭遇了巨大的挑战,2020年出现的软件质量事故也不可避免地有这方面的原因。一个非常典型的例子就是美国云视频会议企业Zoom在2020年3月份爆出的用户视频大规模泄露的信息安全事故。
因为疫情的缘故,美国知名的云视频会议公司Zoom在2020年初的日均在线用户数在3个月内从1000万暴涨到超过2亿人,帮助众多企业、学校、医疗及政府等机构的业务得以正常运转。但用户数的激增给Zoom带来了很大挑战:Zoom的平台主要是为企业用户设计,这些用户通常会在使用Zoom服务前就做好充分的安全评估和审查。但由于最近新型冠状病毒疫情的影响,使用Zoom服务的用户从企业扩展到个人,应用场景也变得越来越广,除了工作场景,还包括在线学习、社交等,Zoom表示没有预料到这样的快速变化。据一位安全研究员发现,用户视频遭大规模泄露,云存储上至少有1.5万个Zoom会议视频,可以供任何人观看。这些视频还广泛存在于YouTube等视频平台。2020年4月1日,Zoom 创始人及CEO Eric Yuan向就这一安全隐私事故向广大用户发表了一封诚恳的道歉信[III],并且说明了该公司在过去、当下和未来在提高信息安全方面做的工作。事故关键词:航空航空事故无小事,大家对于波音737MAX机型的两起坠毁事故一定还记忆犹新,这一机型在2017年投入商用,随后在18年和19年发生两起致命坠机事故,共造成346人丧生,导致这个机型飞机不得不停飞。经历了长达18个月的事故调查,终于在2020年9月份公布了最终的调查报告[IV],报告中写道:“最大的几起坠机事件……是波音工程师一系列错误的技术假设、波音管理层缺乏透明度以及联邦航空局监管严重不足的可怕结果。”在罗列的5条原因中,有两点和软件质量有关:
2020年2月28日,波音公司承认[V],该公司测试载人飞船星际客机软件系统的程序存在严重缺陷,在测试阶段只是将整个飞行过程分成了几个小单元分别进行测试,但没有对飞船进行完整的、端到端的集成测试(覆盖从发射、国际空间站对接、着陆的全流程)。上面两起事故都发生在2020年之前,但事故的调查报告是在2020年公布的,因此本文也对此做了盘点。真正发生在2020年的航空业的软件事故需要提一下伦敦希思罗国际机场(Healthrow International airport)发生的软件故障[VI]。希思罗国际机场是欧洲最繁忙的机场,在2019年的旅客吞吐量超过8000万人次。2月17日,该机场的IT系统出现了故障,影响了登机牌和值机系统,超过120个航班被取消,并造成许多其它航班2-3小时的延误,滞留在机场的乘客无法获得航班信息。 事故关键词:金融软件系统不及时进行维护和更新的风险是巨大的,首当其冲是由于缺乏安全更新增加了黑客发现并利用安全漏洞的可能性。其次是与其它系统的兼容性问题。软件系统不进行维护升级,和新的操作系统、新的设备,以及新的第三方软件应用的集成或兼容就会有问题。2020年8月,花旗集团由于使用一个过时的软件系统造成了近I10亿美元的损失。彭博新闻(Bloomberg News)报道称[VII],引发故障的贷款支付系统还是在20世纪90年代安装的产品。
同样也是金融市场,2020年4月20日,A股开盘后市场中多个指数出现异常[VIII],其中:沪深300指数低开逾2%,中证1000指数高开逾6%,中证200指数大跌逾4%,300医药指数大跌逾16……据业内IT人士猜测称,这种情况一定是系统出现了问题,想起周六配合etf申赎测试,很有可能是测试环境没有切回来导致的bug。该故障一直持续到中午,到下午开盘时才恢复正常。估计是利用中午休市的时间窗口从测试环境切换回生产环境。 事故关键词:互联网服务2020年在互联网服务行业中也发生了几起软件质量事故。2月23日,微盟恶性删库事件,微盟研发中心运维部核心运维人员通过VPN登入服务器,并对线上生产环境进行了恶意破坏,包括数据库备份服务器。生产环境和数据直到2月28日才完全恢复,暴露了该公司在公司管理和技术方面的诸多问题[IX]。9月28日,Microsoft Azure Active Directory(Azure AD)发生全局中断[X],导致许多用户无法验证Azure AD并连接到受服务保护的任何内容。这意味着客户无法访问Azure门户、Microsoft团队、Microsoft 365和其他受Azure AD保护的服务。这是一次影响广泛的服务中断事件,影响到全球所有地区的Microsoft和Azure客户。不止是这次,微软云服务在3月和10月也发生了服务中断的事故。11月26日,Amazon Web Services(AWS)发生了一次重大的宕机事故[XI],影响了包括Adobe,Roku,Twilio和Flickr在内的多家依赖AWS云服务的公司。此次云服务中断事故所幸仅影响到北美地区使用者。纽约市的MTA也受到影响,导致其地铁网站和应用程序出现问题。亚马逊回应称,此次中断核心是由于AWS Kinesis,这是AWS旗下一款产品,可用于实时聚合和分析大量数据。尽管许多受影响的服务并未使用AWS Kinesis,但亚马逊指,Kinesis问题实际上在企业内部造成问题,其他27种AWS产品也出现接连出现错误和中断。12月14日当天凌晨,Google服务器突然遭遇全球大面积故障[XII],在宕机的45分钟内,谷歌旗下的多项服务无法访问,包括Gmail邮箱,谷歌日历、视频网站YouTube等热门应用均受到严重影响。故障发生一个小时左右之后,绝大部分用户已经基本恢复服务。该公司透露,这次宕机并没有遭到外部攻击,而是因为内部存储配额问题,导致用于登录用户账户的身份验证系统发生故障。 总结近年来最严重的软件故障包括勒索软件攻击、IT系统中断和用户数据泄露,影响了全球一些最大的公司和数百万用户。万物互联的时代正在到来,一个软件故障可能导致整个城市的交通瘫痪和恶性交通事故,也可能导致用户数据的大批泄露。真心希望在新的一年里,各行各业能够更加重视软件质量保障,重视信息安全,减少软件造成的重大事故。 参考资料: