为什么数据分析举措仍然会失败

CIOAge
强大的数据分析是数字化业务的当务之急——这一切都始于智能数据治理实践,以及对质量和情境的强调。高管们都泛泛地谈论数据的价值,但Navient Solutions的企业数据情报总监Michele Koch却可以计算出公司数据的实际价值。

 

强大的数据分析是数字化业务的当务之急——这一切都始于智能数据治理实践,以及对质量和情境的强调。

高管们都泛泛地谈论数据的价值,但Navient Solutions的企业数据情报总监Michele Koch却可以计算出公司数据的实际价值。

事实上,Koch能用以真金白银计算公司各种数据元素产生的收入增长和成本下降。因此,她十分清楚,Navient的数据中存在的问题可能会损害其盈亏。例如,客户档案中的关键数据字段中的错误可能意味着公司无法以***的成本处理贷款。

她说:“这涉及到钱,所以我们有一个数据质量仪表板,我们可以在这里跟踪一切。我们跟踪实际的和潜在的价值。”

Navient的***数据管理员兼财务副总裁Barbara Deemer表示,Navient(位于特拉华州威尔明顿市的资产管理和业务处理服务公司)早期有一项与数据相关的举措说明了风险所在。2006年的举措侧重于提高营销数据质量,并产生了720万美元的投资回报——从贷款量的增加和运营支出的减少中获得回报。

Koch说,从那时起,Navier的高管们致力于支持强大的数据治理计划,以此作为成功分析工作的关键组成部分。Navient的治理计划包括公认的***实践——如数据字段的标准化定义并确保有干净的数据。

它为每个约2,600个企业数据元素分配所有权;所有权要么属于数据字段首先发源的业务领域;要么属于特定的数据字段是其流程不可或缺的业务领域。

该公司还有一个积极监测字段质量的数据质量计划,以确保高标准可以得到满足。该公司还发起了数据治理委员会(2006年)和分析数据治理委员会(2017年),以解决持续存在的问题或疑虑,在整个企业中做出决策,不断改进数据操作以及数据馈入公司的分析工作的方式。

Koch说:“数据对于我们的业务举措以及商机十分重要,重要到我们希望着重对支持分析计划的数据进行一如既往的改进。”

根据数据治理解决方案公司Erwin和UBM发布的2018年数据治理状况,大多数高管都认为数据治理至关重要,他们例举了合规定、客户满意度和更好的决策作为关键驱动因素。但是,报告发现,近40%的应答组织没有单独的数据治理预算,约46%的应答组织没有正式的战略。

该调查结果基于118名受访者的答复,其中包括***信息官、***技术官、数据中心管理者、IT员工和顾问。

专家表示,有鉴于这些数字,很多企业数据程序中存在薄弱环节就不足为奇了。以下是七种有问题的数据实践。

将数据汇总在一起,但不能真正地集合数据

数据治理专家组织(Data Governance Professionals Organization)的通讯副总裁Anne Buff表示,在如今的数据和分析领域,集成是***难题。

Buff解释说,诚然,很多组织将所有数据收集到一个地方。但实际上,他们没有集成多个数据源的各个部分。因此,某一个系统里的Bill Smith与其它系统生成的Bill Smith的数据(以及他的名字的变体)没有关联。业务无法清楚地了解他的身份。

Buff说:“共存数据与集成数据不同。你必须有一种方法来匹配来自不同来源的记录。你需要做到这一点,当这一切都结合在一起时,有关Bill Smith的身份的更宏观的观点就形成了。你必须融会贯通。”

Buff说,各种数据集成技术使这一点成为可能。选择,实施和执行正确的工具对于避免过多的人工工作或重复劳动至关重要。

此外,集成变得越来越重要,因为数据科学家正在搜寻数据中的模式,以获得可以产生突破、竞争优势的洞察。

Buff(他同时也是北卡罗来纳州卡瑞市的SAS咨询业务解决方案经理)说:“但是,如果你不能把以前从未汇集过的数据汇集在一起,你就无法找到这些模式。”

没有意识到业务部门有独特的需求

没错,统一的、集成的数据对于成功的分析计划至关重要。但有些业务用户可能需要不同版本的数据,Buff这样说道。

她补充道:“一种形式的数据并不能满足组织中每个人的需求。”

相反,IT要考虑数据供应,即提供业务用户或业务部门确定的业务案例所需的数据。

她以金融机构不同的需求为例。尽管有些部门可能需要集成的数据,但欺诈检测部门可能希望其数据科学家使用不干净的数据,以便搜索危险信号。他们可能想搜寻同一地址的人,他们用个人识别信息的轻微变化来申请多笔贷款。

Buff解释道:“你会看到类似但有细微变化的数据元素,所以你不想剔除和清理太多的差异。”

她说,另一方面,该金融机构的市场部希望拥有正确的客户姓名、地址等内容,以便以正确的通信录为目标。

只招数据科学家而不招数据工程师

随着企业渐渐超越基础的商业智能,转向预测性和规范性分析以及机器学习和人工智能,他们要不断提高数据团队的专业水平。

反过来,数据科学家一职也因此受到了关注。但数据工程师同样重要,他们整理了所有需要集成的数据集,以供数据科学家完成工作,但他们迄今为止鲜有组织问津。

贝恩公司(Bain & Co.)旧金山办事处的合伙人兼高级分析和数字化实践的***Lori Sherer说,这种情况正在发生变化。

Sherer说:“我们已经看到,对数据工程师的需求增长大约是对数据科学家需求增长的两倍。”

联邦劳工统计局预测,对数据工程师的需求在未来十年将持续快速增长,美国经济体在2016年至2026年期间将增加44,200个职位,平均年薪已达135,800美元。

然而,专家说,数据工程师像很多IT部门的重要职位一样,其数量无法满足IT部门,这使现在刚刚开始招聘或培训该职位的IT部门不得不迎头追赶。

保留过时的数据,而非管理其生命周期

在过去十年中,存储成本大幅下降,使IT部门能够更轻松地存储大量数据,而且存储时间比以往任何时候都长。有鉴于如今数据创建的数量和速度,以及对用于分析的存储容量的需求增长,这似乎是个好消息。

位于佛罗里达州阿波罗海滩的Soaring Eagle Consulting的联合创始人、《挖掘新黄金:管理你的业务数据》一书的合著者Penny Garbus说,尽管很多人对拥有海量的数据和资料的价值表示赞赏,但过犹不及。

Garbus说,很多企业持有数据的时间太长了。

她说:“你不仅需要为此付费,而且如果它已存在10年之久,这些信息很可能远远过时了。因此我们鼓励人们为数据设置期限。”

Garbus说,数据的截止日期不仅因组织而异,还因部门而异。零售公司的库存部门可能只需要相对较新的数据,而市场营销部门可能需要数年前的数据来跟踪趋势。

如果是这样的话,IT要实施能够将正确时间范围内的数据传递到正确位置的体系结构,以确保所有人的需求都能得到满足,并且旧数据不会破坏具有时效性的分析程序。

正如Garbus所指出的那样:“不能因为你必须保留[旧数据],就认为你必须将它保存在核心环境中。而是你必须拥有它。”

关注数量,而非针对相关性

IT咨询公司博思艾伦(Booz Allen Hamilton)的高级副总裁Steve Escaravage表示:“我们仍在建立模型并用可用性***而非关联度***的数据运行分析。”

他说,组织往往会认为它们应该采集并不断添加数据集。他说,它们认为“或许我们没有找到要找的东西,而不是问:我们是否有合适的数据?”

他说,鉴于有很多机构通过分析海量数据来寻找异常情况,以此来寻找欺诈行为。这虽然是一项重要的活动,但领先的机构也会分析能获得更好成果的更具针对性的数据集。在这种情况下,他们可能会考察产生某些类型交易的个人或机构,这些交易可能存在问题。又或者是,医疗机构在分析患者预后(patient outcome)时可能会考虑这样的数据——医生在提供患者护理时的轮班时间。

Escaravage表示,组织可以从创建数据愿望清单开始。虽然这个练习始于业务端,“始于理解这个清单并实现它,这是***信息官、***技术官或***数据官的分内事。”

提供数据,但忽略了数据的出处

如今的热点话题是分析的偏差,这种情况可能会扭曲结果,甚至会产生错误的结论,以糟糕的业务决策或结果告终。产生偏差的问题存在于企业分析计划的多个不同领域——包括IT如何处理数据本身,Escaravage这样说道。

他说,IT在追踪它所拥有的数据的来源时往往做得不够出色。

Escaravage认为,对数据产生的方式和位置缺乏可见性使偏差更难控制,他说:“如果你不知道这一点,这会影响你的模型的性能。”

他说:“了解数据来自哪里以及数据遭遇了什么,这是IT的责任。人们在数据管理方面投入颇多,但他们也应该有一个元数据管理解决方案。”

提供数据,但未能帮用户理解情境

IT不仅要有强大的元数据管理计划,而且还要跟踪数据的来源以及它如何在系统中移动,应该让用户了解一些历史数据,并为通过分析产生的一些结果提供情境,Escaravage这样说道。

他说:“我们对自己能够创造的东西感到非常兴奋。我们认为自己有非常好的数据,尤其是未经分析的数据,我们可以根据这些数据的效用建立一个心理模型。尽管过去五年的分析方法令人惊叹不已,但这些方法所产生的结果远不如过去那么容易解释——过去,你在数据挖掘之后应用业务规则,数据很容易得到解释。”

Escaravage解释说,更新的深度学习模型提供了洞察和可执行的建议。但是这些系统往往不会提供对***决策有帮助甚至至关重要的情境。例如,它没有提供关于可能性的信息和基于数据可能会发生某事的确定性。

Escaravage说,人们需要更好的用户界面来提供情境。

他说:“技术问题在于人们将如何与这些模型进行交互。这就是从透明度立场关注UI/UX的做法显得十分重要的场合。因此,如果有人看到来自人工智能平台的推荐,他们可以在多大程度上深入查看潜在的数据源?***信息官将不得不问这样一个问题——如何在他们的系统中建立这种透明度。” 

【编辑推荐】

责任编辑:吴金泽 来源: 企业网D1Net
相关推荐

2018-05-07 15:30:13

数据治理分析数据集

2018-05-07 10:32:40

数据分析

2017-08-08 16:38:50

IT敏捷devops

2023-10-30 07:24:18

IT项目DevOps

2022-07-20 07:16:17

CISO漏洞

2021-06-24 15:22:10

Spring云原生平台

2022-05-18 08:25:59

MySQLutf8字符集数据库

2022-06-23 14:04:51

漏洞信息安全数据泄露

2023-03-22 09:10:18

IT文档语言

2012-05-02 10:08:51

桌面Linux微软

2020-05-29 09:56:31

数据分析数据大数据

2023-05-06 11:05:12

2011-07-01 09:13:51

软件测试项目

2023-05-06 10:43:21

开源数据分析

2021-03-08 11:11:00

机器学习人工智能AI

2021-05-10 09:35:58

Kubernetes节点Join

2014-07-16 09:45:36

DOS

2023-10-10 16:06:14

数据分析工具

2013-03-06 16:56:47

2020-02-17 09:14:16

云计算云迁移公共云

51CTO技术栈公众号