Discover是如何改变数据管道以获得AI的成功的

CIOAge
如果说人工智能的成功有一个关键因素,那就是数据。但是,即使是深谙数据和精通分析的组织,也很难建立起一个可靠、自动化的数据管道来推动机器学习策略。

[[410964]]

如果说人工智能的成功有一个关键因素,那就是数据。但是,即使是深谙数据和精通分析的组织,也很难建立起一个可靠、自动化的数据管道来推动机器学习策略。

Discover Financial Services在2019年发现自己正处于这个十字路口,当时它的开发人员和数据工程师正在处理复杂的手动流程,这些流程吞噬了时间,阻碍了公司的敏捷性。为了充分利用机器学习和实时数据洞察,Discover需要转变其获取、丰富和使用数据的方式。它的答案就是Cloud Data Fabric?这是一个自主开发的平台,它可以将各种服务编织在一起,以提供元数据驱动的自动化、实时摄取/加载以及云中的内置治理。

“我们召集了最优秀的技术领导者来思考这个问题,制定了一些最初必须具备的条件,并就如何实现目标提出了架构构想,”Discover Financial Services的执行副总裁兼首席信息官Amir Arooni表示。“我们会带着这些想法,去各种工程产品小组或领导那里,寻求反馈,并在此过程中进行调整。”

在那之前,Discover构建数据管道的过程涉及到了应用程序开发人员和工程师之间的长时间对话,以决定需要将哪些数据发送给分析部门。然后,开发人员将手动编写脚本,从操作数据库中提取数据,并安排这些脚本将原始数据发送到分析环境的着陆区。然后,数据工程师将构建专门的数据应用程序来接受原始数据文件,以执行各种操作,例如验证模式。数据工程师还必须获取数据的敏感度信息,以便他们可以编写逻辑来标记正确的字段。

最终,这意味着数据工程师需花费数小时来手动编写逻辑代码,并弄清楚需要将分析数据发送到何处以及存储数据的正确格式。

Arooni和他的团队与Discover的安全和文件传输团队、云基础设施团队、数据库管理员和数据治理团队以及数据工程师和科学家聚集在一起,共同讨论了纠正这种情况的想法。由此产生的Cloud Data Fabric(Discover Financial Services最近因此获得了CIO 100的IT卓越奖)将来自Discover运营应用程序数据库的数据流、捕获元数据、标记敏感数据字段和跟踪数据集谱系的服务结合在了一起。

“Fabric中的产品将努力通过元数据驱动的自动化和无摩擦的用户体验来提高数据工程的效率,”Arooni说。“例如,我们的Fabric所包含的产品能够以更快的速度处理我们对数据的接收,只需按几个按钮就可以将数据实时的定向到多个目的地。”

通往成功的跑道

该项目也并非没有挑战,其中最大的挑战是确保所有级别的人都在目标和愿景上保持一致,Arooni说。

“从我们的工程师到一线管理层,再到高层领导,我们进行了多轮沟通,让每个人都保持了一致……并一直如此,”他表示。“我们是一个大组织,有很多的想法、意见和不同程度的理解。在执行过程中,你必须尊重你在倾听、目标设定和问题解决过程中所遇到的所有这些方面。”

为了实现这一目标,Discover引入了一个名为“跑道”的新计划,该计划由五个工作流组成:工程人员、极度自动化、敏捷实践、可靠性和技术组织以及纪律和员工体验。该跑道计划汇集了规模较小、自我授权的工程团队,他们将专注于开发单一的敏捷方法和自动化手动功能,并强调简化。

组建一个能够实施项目所用技术的自主团队也需要一些时间,Arooni说。它需要与各种技术的所有者沟通并建立信任,团队必须与文件传输开发人员、数据库管理员、数据管理专家、安全专家和各种全栈开发人员团队进行跨职能的合作。架构师、产品经理、Scrum大师和管理团队也需要一起协调他们的工作。许多工程师将不得不第一次学习如何在云软件上进行开发。

“作为创建更多自主团队努力的一部分,我们将技能组合混合到了产品团队当中,”Arooni说。“这意味着每个人都可以参与到以前由于人为所有权壁垒而没有机会参与的技术当中。”

事后看来,Arooni表示,他会在一开始就加大对更多自主团队的推动力度,以更快地提高效率和士气。他说,团队也会以稍微不同的方式来组织其架构设计模型。

“我们现在正在为新产品的开发去做这两件事,”他说。

Arooni说,Cloud Data Fabric对Discover的影响是无价的。该项目减少了其数据管道的工程开发和支持时间,其数据科学家、AI/ML工程师和建模人员也可以以更快的速度获得更有意义的数据。该项目在追溯性数据方面节省了数百万的美元。

“这项创新计划所节省的时间、容量和资金对Discover来说是一个巨大的胜利,”Arooni说。

他还指出,Discover的工程师已经为Cloud Data Fabric的整个开发和部署过程中的进一步增强提出了“大量想法”。

对于他的同行,Arooni则表示:“应该尽可能的自动化;用户体验也至关重要;而且需要通过授权来关爱你的工程师。”

 

责任编辑:姜华 来源: 企业网D1Net
相关推荐

2023-10-10 10:19:10

AI数据中心

2024-03-06 16:36:02

2014-11-11 11:36:21

云计算云技术

2023-11-03 16:21:54

2023-09-04 15:48:23

人工智能AI

2017-06-12 11:00:06

2015-06-17 13:52:20

数据中心架构SDN

2024-01-30 11:25:33

2024-03-27 15:31:34

大数据物联网人工智能

2015-11-23 09:42:33

大数据数据库

2022-09-30 14:32:23

人工智能数据隐私游戏规则

2022-07-14 09:19:39

数据中心机器学习人工智能

2024-02-26 11:25:29

人工智能数据中心机器学习

2022-07-08 10:13:34

数据中心

2022-12-28 11:01:06

数据中心服务器

2023-12-22 10:06:32

数据中心人工智能AI

2021-07-01 10:26:44

数字化培训CIO

2023-10-09 15:39:28

人工智能数据中心

2022-11-21 11:18:01

无人机AI

2021-07-30 15:51:04

人工智能数据安全网络安全

51CTO技术栈公众号