PagerDuty公司是如何帮助客户服务和IT团队改进响应工作的

CIOAge
PagerDuty公司使用机器学习技术来预测问题,从而显著加快响应速度,因此可以在问题影响到客户之前就得到解决。

预测美国大学生篮球联赛(NCAA)一级男子篮球锦标赛的结果和锦标赛本身一样具有竞争性,这是一项非常容易爆冷和结果极难预测的赛事。多年来,沃伦·巴菲特(Warren Buffet)举行过一次活动,对成功预测各球队比赛成绩的人给予十亿美元的奖金,但没人能接近获得这笔奖金。谈到不可预测性,正如球迷们准备为今年的锦标赛成绩进行预测一样,所有重大的公共体育赛事都被取消了。谁能预料到这种情况呢?

[[332055]]

尽管我们看不到未来,但对一些变量的深入了解确实能让人们做出更好的预测,并在比赛中获得优势。通过学校吉祥物来预测获胜者可能偶尔会奏效,但对最佳球队、教练和运动员进行深入研究是一种更为有效的策略。

同样,客户服务、开发运营和IT问题在本质上也是不可预测的。企业不可能事先知道什么时候会出现运营问题,什么时候会出现产品缺陷,什么时候沟通会出现问题。人工智能和机器学习技术驱动的解决方案可以帮助团队提高胜算。这些产品可以极大地加快对问题的响应速度,因此在大多数客户遇到问题之前,就可以进行预防或得以解决。

当数字应用程序或服务出现问题时(例如,某一电子商务网站的购物车存在故障),企业每分钟会收到数千条警报,这对于人类员工来说既无用也无法操作。过多的噪音只会导致信号丢失,以及在潜在问题得到解决之前,客户与服务团队之间会有更多的联系。

客户服务的预测性解决方案是基于对这些信号背后的驱动因素的了解。快速识别模式有助于企业保持领先地位。机器学习工具通过消除无用信号,从而为响应团队大大地缩短了响应周期,而不是通过可能无用的警报和信息一遍又一遍地分散他们的注意力。

当团队以这种方式使用机器学习技术时,他们可以大大减少这些信号,从而发现那些导致警报数量难以控制的实际事件。他们不必忙乱地解决许多小故障,而是可以全局性地看到问题的真正所在,并在解决一些数量较少的大问题时更加明智和聪明。

预测功能如何改善服务响应

如果预测流程要帮助企业为大多数客户提前解决问题,那么该流程必须实时进行。不断变化的问题可能会影响到客户,因此不允许您停下来进行反思或从容应对。

对预测性客户服务和IT服务的更高层次的需求是训练算法来识别哪些警报属于哪些事件。在PagerDuty公司,我们的主要目标是帮助企业在数字系统出现问题之前找出这些问题,并预测将来可能出现的问题,以便企业能够提前进行解决。我们使用机器学习技术将所有警报进行分组,这样团队就可以看到问题的整体状况,并确切地知道如何解决这些问题。

例如,多个团队可能各自都在处理单个投诉,却不了解这些投诉都是某一问题的各个方面。PagerDuty平台的见解可以解决该问题,并让所有人都能步调一致。同时,由于服务响应人员被分配去解决某些特定的问题,该平台会对信息进行筛选,然后发给每个人,因此他们不会被自己正在处理的问题以外的其他问题所淹没。

这一点很重要,因为大多数系统都不是孤立运行的,当某个位置出现一个故障就等同于其他位置出现一个故障。当出现问题时,企业会使用PagerDuty平台来帮助查找连锁问题的源头,以防止发生灾难性故障。当团队的预测能力和预防能力更强时,他们就可以从更高层面上看问题,并了解他们的工作将在哪些方面产生最大的影响。

帮助团队快速找到和解决问题的结构还可以为组织的各个层级带来更大的视野。经理和主管可以更好地了解如何部署团队。那些可能必须向客户解释问题或停机故障的领导们同样也会获得一些信息和拥有一个明确的前进道路。

PagerDuty公司如何使用机器学习技术

为企业的客户服务和IT工作提供更好的预测能力和预防能力,首先要以有助于找到数字问题的潜在原因的方式来对问题进行分组。该分组操作首先基于以下假设:如果两条信息具有相似的文本,则这两条信息基本类似。尽管从理论上讲这是合理的,但了解这些信息是否真正相似则是一个模糊的概念。

在PagerDuty公司,最有效的解决方案是使用一个解析器,该解析器会接收信息,并将其转换为不太精确的语言。此过程会减少词语的数量,以显示该信息中的某些特定元素。

该系统会查找唯一的标识符,例如日期、时间、客户ID或内含ID的网站,这些标识符仅会在客户信息和报告的语境中发布。就内容而言,这些标识符通常对解析器并不重要。该程序仅会查找这些标识符是否存在于信息主体中。

在这种总体模糊处理后,可将每条信息中的词语和标识符进行分组。PagerDuty平台在此检查所接收的信号,并根据信息的整体内容来确定哪些信息拥有相同的词语组。

此步骤通过向量化来完成,向量化是将这些单词系列中的每一个转换为具有代表性数字序列的过程。但这仍是一个不完善的系统。当然,每个句子都会产生一个向量表示,但每个向量都可能来自几个不同的句子。通常,有足够的信息可以确定句子何时具有相同的信息。但PagerDuty公司的软件工程师仍必须考虑一个事实,即一个向量可以有很多种组合方式。

一旦系统识别出一组具有相同向量的信息,便将它们捆绑在一起。这些信息组基本上具有相同的内容。它们的标识符表明它们包含了众多相同的词。

将机器数据转化为预测和预防能力

例如,当一家公司在突然收到大量报告和信息时,通常他们会认识到出了问题。其中大多数内容是机器生成的,有些带有自定义模板,有些甚至是由人编写的。如果不进行某种形式的分组,团队将无法从更高层面上了解所发生的情况。他们可以设计一个分组工具,但这需要投入大量的时间和精力,同时更多的事件报告会不断累积。

同样,由于如此多的信息具有不同的内容,仅在内容相同时对信息进行分组并不能减少问题的数量。使用AI技术来识别相似性可以让团队随时间推移累积更多的相关信息。不同于数以千计的单个问题(每个问题由一个报告或信息表示),通过这种方式对警报进行分组,这只会显示出几个核心问题,而这些核心问题就是其他问题的根源。

此时,该系统已使响应团队具备了预测和预防能力。找出最大的问题,解决可能导致未来问题的根源,这就变得更为容易。优先处理核心问题上的一些工程工作会导致事件数量显著下降,所有这一切都源自基本的AI分组。

从理论上讲,这应该是一个非常可靠的过程。一旦对信息进行解析、识别和向量化,系统就应该很容易按相似的内容将信息进行分组。这些信息都是文本相关的,而这些向量可以让该平台来衡量相关性的强度。

当然,实际上并不总是那么简单。语言的灵活性意味着该系统经常出错。这就是为什么PagerDuty公司在我们的产品中建立了功能强大的反馈系统。

通过人工反馈改进结果

当最终用户向该系统提供反馈时,他们就为我们提供了新的数据点以有助于完善该流程。通常,这需要承认,A和B看起来应该是相互关联的。然而,该信息在人类语境中显示,它们彼此之间没有多大关系。

PagerDuty公司的反馈系统会给予那些拥有相同单词而正相关的信息更大的权重,但之后人工反馈表明它们并不相似。这种评估和修改过程可以在软件中通过一个大型的强化学习系统完成,但对于用户而言,这只是单词和信息是否应该分在一起的一个简单的评估过程。

当然,客户不需要了解其如何工作的具体细节。客户服务和IT团队应该使用简单的工具来提供反馈,以描述哪些词汇不匹配。

在更高的层面上,PagerDuty公司的反馈系统为用户提供了用于合并和拆开警报中的词汇组的众多选项。这只是一个抓取选项,可将这些词汇组从某一组中移入或移出;本质上表示,某些项彼此属于同一组,但另一项则不属于。

另一个不太复杂但功能同样强大的产品可能只需要几个简单的赞成和反对按钮。 用户基本上可以表示赞同某一匹配,或指出该过程中存在的缺陷。

任何事情都可能让客户感到沮丧和失望,就像在客户服务部门工作过的人会告诉您的那样。在这些不可预测的情况下改进工作,这需要在问题出现时尽快地学习、了解和解决问题。最初的太空集成事件智能和应急响应解决方案是通过观察数字信号和人类响应行为,将机器与人类遥测技术相结合。

 

责任编辑:赵宁宁 来源: 企业网D1Net
相关推荐

2021-09-14 10:01:39

云计算初创公司谷歌

2021-07-05 11:14:31

分析人工智能AI

2022-03-02 15:07:20

首席信息官物联网

2022-05-28 12:33:17

谷歌项目经理领导者

2013-11-25 10:17:42

数据虚拟化

2012-06-21 14:25:23

惠普应用性能管理APM

2010-07-26 15:01:32

Telnet服务器

2023-02-06 15:26:49

网络运营NOC团队

2017-08-03 13:06:21

2011-08-08 13:45:58

jQuery

2021-05-10 17:20:55

AIOps开发人员人工智能

2012-04-26 16:44:52

BMC云计算云服务

2011-07-12 09:36:12

2021-02-24 09:00:00

工具开发编程

2022-08-02 14:05:48

人工智能数据安全隐私

2016-11-21 15:08:38

Leader工程师团队管理

2020-07-30 11:41:52

IT团队远程工作CIO

2017-07-20 06:27:22

机器学习人工智能数据

2010-08-02 16:56:03

ICMP协议

51CTO技术栈公众号