CIO可以从 Optus 大规模故障中学到什么-51CTO.COM

本月早些时候，澳大利亚电信公司 Optus 发生大面积故障，导致 1,000 万澳大利亚人和 40 万家企业在长达 12 个小时的时间里无法使用电话或互联网，在此之后，Optus 首席执行官 Kelly Bayer Rosmarin 本周辞职。

在上周澳大利亚参议院的一次调查中，该电信公司的网络总经理 Lambo Kanagaratnam 告诉当局，Optus “没有针对这种特定规模的中断制定计划”。Rosmarin 本人也承认，在停电之前，她携带了一张竞争对手沃达丰的备用 SIM 卡，而停电之后，她现在又携带了一张竞争对手 Telstra 的备用 SIM 卡。

网络中断期间，Optus 未能接通 228 个紧急呼叫，其中包括一名心脏病发作男子的同事打来的电话。

这次网络故障显示了互联系统的脆弱性，它提醒人们，尽管系统很先进，但还是有可能出错，而且一定会出错，它为 CIO 们提供了一些重要的经验教训，要求他们现在就采取谨慎的行动。

尽管 Optus 的停电事件影响巨大且范围广泛，但此类事件绝非孤立的异常现象，许多组织都曾发生过此类事件，严重程度各不相同。根据 Uptime Institute 的《2023 年年度故障报告》，行业分析发现此类故障的成本正在增加。

对于 CIO 来说，处理此类事件不仅仅是管理 IT 系统那么简单。它要求将前瞻性、战略优先级和有效的灾难恢复计划结合起来。Optus 故障为评估提供了提示，让 IT 领导者深入了解如何更好地加强防御以及如何在出现问题时更好地应对。以下是最近这次备受瞩目的 IT 故障的一些重要教训。

采用协议，首先测试更新

Optus 公司的初步报告称，此次故障与 “例行软件升级”后“国际对等网络路由信息的变化” 有关。母公司新加坡电信（SingTel）随后驳斥了这一解释，称是 Optus 路由器的安全系统出了问题，而不是软件升级。

Bayer Rosmarin 在参议院作证时指出，根本原因是该公司的路由器“触发了故障安全机制，这意味着每台路由器都独立关闭”，她说这是“新加坡电信国际对等网络升级引发的”。

尽管如此，这次故障强调了一个重要问题：在推出更新，尤其是组织或网络范围的更新之前，最好先在内部系统上进行测试，然后再上传到网络。电信分析师 Paul Budde 说：“这就是所谓的‘fat fingers’”。

Budde 说：“如果其中有错误，你希望网络能够识别并过滤掉它，否则你就会在整个系统中产生连带效应。如果整个网络瘫痪，技术人员在进入系统时就会遇到问题。那么问题就来了：你的冗余是什么？”

在 Optus 的案例中，修复工作涉及对澳大利亚 14 个站点的 100 多台设备进行系统重置。据 ABC News 根据参议院调查文件报道“同时还有 250 名其他员工和五家国际公司也提供了支持”。

找出薄弱点并加以解决

IT 研究和咨询公司 Adapt 的数据和分析主管 Gabby Fredkin 说，必须绘制公司的基础设施地图，对服务进行细分，以便在发生故障时能够独立运行，找出薄弱点，并对这些薄弱点进行压力测试，以了解系统中的任何漏洞。

Fredkin 承认:“说起来容易做起来难。”

不过，网络的稳健性取决于其最薄弱的环节，如果出现单点故障，尤其是涉及关键基础设施的单点故障，就会导致整个系统瘫痪。至少，CIO 必须知道他们的系统中存在哪些单点故障，以帮助确保冗余，并为围绕优先级和预算做出决策提供背景信息。

Enex 测试实验室总经理 Matt Tett 说：“你可能无法在整个网络中建立冗余路径，因为成本太高。但是，当你的组织或其他组织发生重大故障时，这是一个审查风险与成本的机会。值得对预算进行审查，并考虑在网络上增加双重负载是否能在将来省去一些麻烦。”

为不可避免的故障做好规划

即使不是在监管像 Optus 这样的庞大网络，IT 领导人及其执行同行也必须为自己或服务提供商的网络中断做好计划，因为即使是小规模或局部的网络中断，也会对企业及其客户造成干扰。

Tett 指出：“重要的是审查业务连续性计划，确保在可能的情况下有某种备份，以继续[照常]开展业务。”

这种业务连续性计划可能包括恢复纸质系统的流程、改用蜂窝网络而不是互联网、确保高管和关键员工拥有双 SIM 卡手机以切换网络，从而确保通信的连续性，或任何与组织相关的流程。

他说：“这就像一本飞行手册，如果你失去了很大一部分技术，你可以尝试确保有一些离线方法来继续运作。”

启动灾难恢复对话

CIO 可以利用这些头条新闻事件来激发他们与基础设施领导者的对话，以审查他们的灾难恢复计划。Fredkin 表示：“不要坐等事情发生。这应该是一个持续的、系统的方法，来研究漏洞在哪里。”他引用 Netflix 的 Chaos Monkey（在其生产环境中制造随机中断）作为流媒体巨头提高其复杂系统恢复能力战略的关键组成部分。

他说：“在他们的系统中制造混乱可以让他们暴露薄弱点，了解可能发生的情况，并对可能发生的情况进行规划和演练。关于灾难恢复的讨论需要首席财务官和首席执行官的参与，以确定脱机和失去客户信任的风险，以及降低这些风险的成本。Fredkin 表示：“一家公司受到影响的方式可能与另一家公司受到影响的方式大相径庭，因此你必须考虑到这一点。”

了解第三方风险

根据 Uptime 的数据，包括云、主机托管、电信和托管公司在内的托管数字基础设施服务在当今的故障中占越来越大的比例。因此，IT 领导者必须意识到并知道如何管理第三方供应商的风险，Budde 认为“尤其是在节约成本措施和外包已成为普遍现象的技术环境下”。

对于软件或硬件的更新，关键是要有一份重要供应商的名单，以及更新的时间和性质。Fredkin 表示，CIO 需要考虑向某些客户而不是其他客户推出更新是否可行，或者向基础设施的某些部分而不是其他部分推出更新是否可行。他们还需要找到 “一种可以进行测试的方法，这样就不会影响整个生产环境”，他补充道。

他表示：“与提供硬件和软件的人员保持良好关系至关重要。提前知道什么时候会有更新，并对何时将更新推送到企业进行某种控制，这将非常有益。”

提出 IT 现代化的理由

Fredkin 建议说，头条新闻式的故障虽然令人遗憾，但往往也为 IT 领导者提供了机会，让他们为自己的 IT 现代化辩护。他说，虽然 Optus 的情况并不明显，但当系统脱机时，往往与遗留技术问题有关，这些事件有助于促使领导层和董事会支持更新系统，以确保系统安全、弹性、速度和规模。

他说：“当 CIO 们提出现代化使用案例时，他们需要得到利益相关者的支持，让企业也能参与其中。”

复杂的关键任务功能可能需要两到三年的时间才能完成，因此还需要一种排序和确定优先级的方法。Fredkin 说：“把它想象成一个交通灯系统，看看哪些是关键和重要的，哪些是紧急的。系统中最大的漏洞是什么？就长期更新而言，这是一个不同的优先级排序，因为有些事情需要按照特定的顺序来完成。”

他补充说：“这就是典型的瀑布思维，在重新设计关键基础设施时，这种思维仍然占据着重要位置。”

从大处着眼

无论故障是源于你的系统还是连接网络的结果，故障都会同时影响众多企业。因此，IT 领导者可能需要考虑超越组织的四面围墙，Budde 说。

他说：“量身定制的灾难和恢复计划需要包括遵守行业标准以及定期审查 IT 系统和协议，以确保其稳健性，尤其是在应对潜在的网络压力和安全威胁时。我们可能需要打破常规思维，开始研究全国性解决方案和全行业解决方案，研究各组织如何在这些情况下相互协助。”

忽视沟通，后果不堪设想

最后，但绝非最不重要的一点是，当发生故障或中断时，无论这些故障是否源于组织自身，组织都需要一个全面的通信手册。

Enex Test Labs 的 Tett 认为：“就任何故障或问题进行清晰、简明的沟通至关重要。这种沟通应向上延伸至首席执行官，向下延伸至客户和媒体，以尽可能清晰地说明情况。组织需要考虑的第一件事是如何与客户进行清晰的沟通，即使造成中断的不是他们。其次，如果因为网络中断而无法与客户沟通，也要制定能够通过媒体进行沟通的策略。还应该包括某种时间框架，以帮助管理对停机和恢复正常业务的预期。无论是几小时还是 48 小时，都要公开透明。”