接受“MLOps”思维的优秀实践

CIOAge 机器学习
从不同的来源提取数据以及对数据进行清洗、分析和填充,如果底层架构缺乏机器学习操作方法(称为MLOps),则机器学习系统很容易出现延迟。

将AI项目从构思变为实现是一种恶性循环,只有一种解决方法——不要让这一循环开始!确实如此,因为数据需要专家在各个层面进行处理。从不同的来源提取数据以及对数据进行清洗、分析和填充,如果底层架构缺乏机器学习操作方法(称为MLOps),则机器学习系统很容易出现延迟。

[[409567]]

大多数AI项目之所以无法投入生产,是因为存在一个听起来很简单但影响巨大的差距:数据科学家和业务部门之间的沟通不当。IDC公司的这项调查侧重于两个群体之间持续沟通的重要性。这就迫使各组织机构寻找能立即使用的解决方案,因此MLOps可以发挥作用。

MLOps的优秀实践侧重于:

  • 提供数据析取、模型创建、部署和监控的端到端可见性,以加快处理速度。
  • 通过存储所有相关工件(例如版本控制数据和元数据),更快地审核和复制生产模型。
  • 根据不同的环境和要求来轻松地对模型进行重新训练
  • 更快、更安全、更准确地测试机器学习系统。

然而,开发、实施或训练机器学习模型从来都不是主要的瓶颈。在生产环境中构建一个集成的AI系统,保持持续运行,没有任何严重的中断,这才是真正的挑战。例如,那些必须要部署机器学习解决方案的组织别无选择,只能迭代重写实验代码。这种方法是模棱两可的,最终可能会/也可能不会成功。

这正是MLOps试图解决的问题。

简而言之,机器学习模型的数据操作(DataOps)就是MLOps。它是通过与数据科学家协作实施机器学习模型的一个过程,以实现速度和稳健性。一家名为 Neuromation的公司拥有一个完整的服务模型,其围绕着为MLOps制定战略。机器学习服务提供商会侧重于将数据科学家和工程师聚集在一起,以实现强大的机器学习生命周期管理。

除了数据科学家,合作过程还包括工程师、云架构师以及来自所有利益相关者的持续反馈。在此过程中,合作过程会侧重于在生产环境中实施更好的机器学习模型,并创建数据驱动的DevOps实践。

还应该做什么?请继续往下阅读。

完善持续集成/持续开发(CI/CD)管道的自动化

持续集成(CI)和持续开发(CD)会使机器学习管道的构建、测试和部署自动化。持续集成和持续开发会使用新设计的模型架构、功能和超参数来部署一个新的连续机器学习管道。该部署的管道会对新数据集进行进一步处理。当获得新数据时,该连续自动化管道会实施一个新的预测服务。此时,输出结果是新组件的源代码。这些源代码将被进一步推送到预期环境中的新源存储库。

该新的源代码会触发CI/CD管道来构建新组件,然后进行连续的单元和集成测试。在所有测试都通过后,新管道将部署在目标环境中。该管道会根据预定义的计划和训练数据在生产环境中自动运行。

构建数据湖以方便数据评估

机器学习可完善大量的数据。这就是为什么在考虑使用数据进行即时预测之前,数据可用性对于确保具有适当的数量和效率是必要的。例如,处理数百万客户数据的QSR(快速服务餐厅)系统应该有机器学习技术提供支持。在这里,不仅数据在不断增长,而且也在快速地发生变化。电子商务领域的情况也是如此,有众多的系统紧密联系在一起,例如最后一公里交付、CRM和内部ERP。

首先,建立一个可以无缝访问所有数据源的数据湖环境。数据湖就像一个集中式的仓库,应该是数据评估的中心。这是用于过滤和筛选数据的存储库,以进行MLOps处理和进一步用于数据分析环境。为了确保数据具有足够的价值来进行定性分析和必要的业务变革,适应持续的实验变得非常必要。为确保这一点,请使用可快速处理可用数据集的可扩展计算环境。

同时,数据湖应配有一个交互式仪表板来进行高级可视化。可考虑使用AWS Quick Sight、Plotly Dash和Power BI等工具作为数据可视化仪表板的示例。这些仪表板可轻松进行定制,以满足不同的业务需求。

在数据评估结束时,所有数据都进行了过滤和结构化处理,以供将来使用。这也包含了编制目录的一个阶段。了解和可视化元数据结构以及从来源到使用微服务的过程都需要数据目录。

监控预测性服务和性能

除了训练、数据和模型类型之外,还有一些其他指标可根据业务目标来确定已部署模型的性能。要记录机器学习模型的最佳输出,请考虑以下指标:

  • 延迟:对无缝用户体验进行评估。以毫秒为单位测量延迟
  • 可扩展性:能够处理某一特定延迟的业务流量。这是以每秒查询数(QPS)来衡量的。
  • 服务更新:确保在更新时具有最短的服务停机时间。

使用数据结构

数据结构是一个从多种来源收集数据并使其满足分析人员立即进行业务使用的框架。MLOps计划会与云端和本地的各种操作用例中的数据结构紧密协作。由于数据结构会创建一个集中的协调流程,因此这些结构可以降低风险,并减少大数据管理的总体成本。有趣的是,各组织机构已使用某一结构作为基础来提升其DataOps计划。

例如,K2View提供了一个建立在其结构技术之上的数据准备中心。数据准备中心会从不同的来源收集数据,然后根据重新定义的模式和规则对其进行过滤、填充和屏蔽。在这里,其数据存储在专属微数据库中的数字实体代表着每个客户。这种由业务实体通过管道传输数据的方法可确保数据的完整性,从而使团队可以不间断地进行访问。

额外提示:选择正确的云架构

您的数据环境可能以某种方式与云应用程序相关联。鉴于我们企业中越来越多地使用云模型,有必要检查一些基础信息:云平台是否与MLOps相匹配?

虽然大多数云平台都提供内置数据科学功能,但要确认其是否可支持端到端机器学习管道(存储、获取、建模、可视化、监控等)的弹性和高性能处理。

在此,“基础设施即代码”可自动配置可扩展和可再现的机器学习环境。就像在本地一样,云平台依赖CI/CD进行准确的机器学习模型训练和测试。支持MLOps 的现成云环境的示例包括AWS SageMaker、Google Cloud AI Pipelines和Databricks。

总结

本文介绍了制定MLOps策略要考虑的一些关键指标。由于自动化是一项主流服务,因此各组织机构所面临的下一个挑战将是提升自己的“各种操作(XOps)”技能。通过使用MLOps,各组织机构不仅可以提高其对DataOps流程的参与度,而且还可以满足急性子客户的期望。

 

责任编辑:赵宁宁 来源: 企业网D1Net
相关推荐

2022-05-19 07:52:39

MLOps云计算实机器学习

2022-08-25 18:58:48

MLOps

2019-11-27 10:55:36

云迁移云计算云平台

2019-09-17 09:44:45

DockerHTMLPython

2021-04-15 08:08:48

微前端Web开发

2020-03-09 14:10:48

代码开发工具

2021-08-17 15:00:10

BEC攻击网络攻击邮件安全

2022-12-21 08:20:01

2023-04-27 13:09:10

MLOps工程师软技能

2023-07-04 15:56:08

DevOps开发测试

2020-11-25 10:26:24

云计算云安全数据

2022-03-11 18:30:39

DevOps软件开发

2023-06-29 00:19:51

2021-12-17 14:06:55

云计算安全工具

2021-01-20 10:53:41

云计算云存储云迁移

2023-01-13 16:34:08

2019-05-07 09:00:40

无服务器Lambda管理

2013-08-12 09:45:06

最佳编程方法编程方法编程

2023-02-07 15:33:16

云迁移数据中心云计算

2020-05-25 11:14:59

代码程序开发

51CTO技术栈公众号