梦工厂是如何使用AIOps来保持制作进度的

CIOAge
业务连续性规划、预测分析和多租户云架构的结合使得动画工作室能够持续制作电影而不会间断。

梦工厂动画(DreamWorks Animation)在很多方面来说都是一个数字数据的制造商。它制作的电影会包含数兆字节的数据,这些数据是由艺术家团队与复杂的数字动画工具在一个复杂的数据管道中共同创造的。当COVID-19大流行来袭,动画工厂不得不关闭时,由于业务连续性规划、分析和多租户的云架构,梦工厂的制作仍然能够继续发展。

[[345309]]

“你可以通过流媒体或影院的数字放映机,以数据的形式观看我们的电影,”梦工厂的技术研究员兼平台和服务架构副总裁Skottie Miller说。“因为多租户、可以在工厂任何地方工作的环境,当大流行来袭时,我们真正改变了什么?我们仍然像多租户云那样运作着。我们在拉斯维加斯的格兰岱尔仍然有我们的数据。人们只是离开这里去了更远的办公室,他们的房子。”

4月初,梦工厂发布了其最新电影巨魔世界巡演,当时美国的大部分地区正处于封锁状态。这部电影需要1200TB的存储空间,创作团队在制作电影时管理和访问了5亿个数字文件。梦工厂大约每4到6个月就会开始制作类似要求的电影,制作时间为2.5到3年。

梦工厂的数字化IT也需要执行所有正常的IT功能,比如支持工资和人力资源,管理系统等等,但它最重要的职责是支持数字生产设施。

梦工厂的艺术家们会使用复杂的工具,其中许多工具是由梦工厂自己编写的,有些则是从供应商那里购买并进行了大量的修改。艺术家们使用这些工具来创建数据。还有一个次要的元数据层,它收集了关于计算作业、场景和序列的复杂性、在资产上投入的小时数等元数据。所有这些数据都会进入一个大数据管道,帮助梦工厂使用人工智能(AIOps)来进行预测分析。利用人工智能和机器学习来自动监控和缓解操作问题,这是一种新兴的趋势,是由NetApp Active IQ提供支持的。

“这是一个非常复杂、非常动态的环境,”梦工厂的首席技术官Jeff Wike表示。“当基础设施或工具不能正常工作或不能很好地工作时,它就会直接影响我们业务的执行能力。技术和我们制作电影的能力之间有着直接的联系。”

从感觉到事实

梦工厂对业务的连续性规划并不陌生。由于总部位于加州的格兰岱尔,地震和野火是家常便饭。

“如果你想想这些事情,”Wike说。“你不一定会想到流行病。但我们现在知道了。我们一直就在考虑如何分配我们的数据?我们将如何分配我们的计算处理?我们是如何在意外发生时,让人们还能够继续工作的?”

数据管理在梦工厂的准备工作中发挥了关键作用。当梦工厂在25年前成立时,每个艺术家在他们各自的工作站上都有一组数据。他们将进行他们的工作,然后将数据转移到工作流中的下一个艺术家手中。在公司转向高性能、共享的存储集群之前,数据一直是高度孤立的。

为了提高敏捷性和支持艺术家的协作,梦工厂采用了多租户云环境和虚拟桌面,使每个艺术家的工作站和工作流程在工作室的任何地方都可以访问。随着环境变得越来越复杂,监测的重要性也越来越大了。几年前,IT对工作室进行了一次重大的架构重构,包括对所有代码进行了检测。说“我认为今天的网络速度很慢”这样的话已经不可接受了。监测必须精确地显示出在任何时候环境中正在发生的事情。

“我们称之为从感觉到事实的转变,”Wike说。

分析和自动化变得与监控本身一样重要了。想要像其他制造商一样在生产因计划外停机而停止生产之前对其设备进行预测性维护,梦工厂就需要能够立即注意到某个特定的文件服务或文件端点正在经历的高延迟,以便工程师能够在应用程序影响到最终用户体验之前处理应用程序或更改其访问数据的方式。

“我们的目标是优化操作,这样我们就可以解放工程师去做困难的事情了,”Miller说。“我希望我的工程师能够创造未来,而不是去监视网络或存储系统。”

AIOps的重要性

这就是AIOps的用武之地。梦工厂会使用NetApp来运行合成事务,复制艺术家的工作流程,建立基线,然后使用机器学习算法来寻找异常并发出警报。例如,Wike说,如果人群部门决定他们需要制作一个15万人的人群场景动画,并且他们想同时渲染所有的人,这就可能会对表演造成很大冲击。因此,IT的工作就是适应这些需求,并在生产环境中进行更改,以保持性能的稳定。

“我们不希望艺术家们注意到某些东西的表现发生了变化,”Miller说。“我们希望我们的合成事务和监控框架在艺术家发现某些东西正朝着坏的方向发展之前就告诉我们。”

“在过去,如果出现问题,工程师可能会注意到,因为他们正在寻找它,或者系统发出了警报,然后工程师才会去调查它,”Miller补充道。“现在,一个问题的出现几乎总是伴随着一个建议,而且在很多情况下,在工程师进入循环之前,还会有一个解决方案。它可以让我们在24x7的支持下运行,同时减少盯着系统的人员。”

连续性的构建、协作、监控和分析,所有这些的结合,使得工作室在必要时几乎可以无缝地过渡到在家工作的环境。Miller说,除了一些高度依赖厂区工作室资源的工作流程外,几乎每个人都能像在办公室里一样的在家里工作。

“分析真的让我们几乎一夜之间就能调整我们的环境了,从每个人都在一起工作,到每个人都分布在各处,没有真正失去一点节奏,”Wike说。“我们在几天内就开始运作了。我们的电影都在正轨上面。”

 

责任编辑:赵宁宁 来源: 企业网D1Net
相关推荐

2021-05-10 17:20:55

AIOps开发人员人工智能

2013-06-26 09:28:29

惠普世界之旅东方梦工厂

2020-10-25 08:59:00

机器学习情绪ML

2012-10-22 13:56:42

梦工厂数据中心

2012-05-03 13:20:18

万网

2012-10-22 09:25:18

虚拟化3D电影固态存储

2011-06-24 15:50:03

惠普工作站

2011-12-09 13:44:55

惠普工作站靴猫剑客梦工厂

2011-04-27 14:52:15

工作站惠普

2014-05-14 17:16:57

腾讯云

2014-08-28 15:50:46

联通WO

2012-08-30 10:44:00

2014-08-22 13:40:01

梦工厂移动互联网创业

2020-06-30 12:00:12

AIOps人工智能IT运营

2011-06-01 09:27:41

AppApp梦工厂

2014-08-21 09:44:27

WO+梦工厂移动互联网

2021-03-18 12:41:42

AIOps机器学习人工智能

2011-03-31 14:44:38

万网万网梦工厂

2021-01-23 07:53:49

人工智能AI

2014-08-19 10:42:59

程序员

51CTO技术栈公众号