CIOAge.com IT推动创新
ESG高级分析师:混合数据管理将成主流
出处:软件世界 文: 软件世界 评论 ( 0 ) 条 ( 0 ) 砖 ( 0 ) 好 论坛 博客
阅读提示:今天,研究人员急切地想知道如何来理解和应对喷涌而出的新数据。他们比以往任何时候都更加需要从这些数据中挖掘研究价值,然而这些大量产生的数据给原本就不堪重负的处理系统造成了难以承受的压力。...

ESG高级分析师Steve Duplessie
今天,研究人员急切地想知道如何来理解和应对喷涌而出的新数据。他们比以往任何时候都更加需要从这些数据中挖掘研究价值,然而这些大量产生的数据给原本就不堪重负的处理系统造成了难以承受的压力。
实际上主要存在有两个问题。第一是如何满足现在所需,也就是如何应对给本已羸弱的IT构架造成更大负担的海量数据;第二是如何满足未来所需,也就是如何在将来某个时候从已有的数据中汲取价值。
第一个问题的关键在于要改变传统的做法,重新评估你希望何时会发生什么事情,根据固定内容的要求来管理信息,而第二个问题的对策却复杂得多。
大部分数据在产生之后的前30天都不会再次被访问。为什么?这并不是因为这些数据在产生之后就失去了价值,而是因为将来不管在任何合理的时间以任何合理的形式,让这些数据对我们在过去从来没有考虑过的问题给出答案,显然是那么地不实际。
认清这两个问题的实际,将它们揉合得出共同答案。
1. 停止用“结构化”、“非结构化”或者“半结构化”等字眼来考量数据的生命周期,这些字眼只是在数据刚被创建的时候才使用。
2. 变化着的数据是动态的,持久数据则不是。所有动态数据最终都要变成持久数据。你是保留还是丢弃这些数据则另当别论。
3. 要认识到动态数据和持久数据之间有明显的不同:动态数据在不断发生着变化,而持久数据则不会。这意味着两者在性能、保护、访问等方面有着不同的评述标准。
4. 依据数据的类型和是否动态或持久来设定规则。在大多数情况下它们不应该是一样的。
5. 构建能支持所有类型动态数据和持久数据的构架,也就说,你会有多个层级的存储、网络和服务器处理能力和容量,当有访问要求时,具备从构架向上或往下流畅迁移数据的能力。
6. 具备找到关联数据的能力,无论这些数据处于何种状态,或者它的物理位置在哪里。
以上这些都比较容易理解,但是数据怎样才能自我管理呢?第二个问题的答案——能发现和汲取关联信息——在于数据自身智能特征的应用。而用元数据将数据包装起来,能在未来根据需要随时查找。元数据越丰富,查询的潜力就越大,从旧资产中发现新价值的机遇也就越多。这就是“关联文件系统”概念发挥作用的地方。
关联数据库能很好地用来寻找数据。关联数据库是高度结构化的,组成也同样比较简单。那为什么不把所有的东西都放到一个关联数据库里呢?这是因为那些数据库并非为存放特大数据集而设计。它们也是复杂的机体,需要丰富的专业知识来支持其运行。同时它们也异常地昂贵。另一方面,文件系统能存放大量数据,无需系统管理员具备数据库管理专长就能轻松管理,而且几乎没有什么花费。
似乎我们需要的是两者的混合体——一个固定内容的数据库。我们需要能对文件系统内的数据作结构化的查询。这不是指归档,而是指一个活跃的存储仓库,它具备所有的结构好处,而不受到任何的限制。
许多数据库被“事件” 记录塞满着,那些生来就为固定内容的东西。日志文件、网络分析、警报等许多一次性的事件记录常常被保留在关联数据库里。那你为什么还要将生来就是固定内容的数据比如事件记录放到关联数据库里呢?这是因为你可能希望能查询。有些提供商让你把事件数据直接放到他们的存储仓库中,运行所有的查询来寻找它们,但是它们并不在关联数据库中,而是被存放在平面文件中,省去了将大量数据存放在数据仓库而产生的成本和复杂性。当Coppereye出现,让人们将所有的事件型数据存放到他们提供的可置于NAS中的系统后,这个问题才有了真正的解决办法。
总之,我们需要重新审度对数据的定义,以及如何对待那些数据类型。统一数据管理中的结构化方式和非结构化并非全新的课题,微软的SharePoint已经在赋予文件结构化特征。
通过消除超大型数据集的存储成本和存储复杂度,同时保持数据查询的方便性,混合性数据管理看来注定会成为主流。

【责任编辑:董晶晶 TEL:(010)68479336-8024】

   
已有0人发表看法
我来说两句
验证码: (如果看不清请点击图片进行更换.)   匿名
最新评论更多..
服 务 CIO 推 进 信 息 化
主编推荐
最近更新
热门文章
中国CIO周刊
浪潮通软助力建峰化工信息化展现CIMS之舞 浪潮通软助力建峰化工信息化展现CIMS之舞
建峰化工CIMS工程的立项,获得了重庆市经委和科委的支持,两个机构分别向该工程拨款10万元和6万元人民币。虽然这部分资金与建峰化工CIMS工..
做好教育信息化需先行 浙大网络的S+S体验 做好教育信息化需先行 浙大网络的S+S体验
浙江大学网络信息系统有限公司是国内最大的教育软件专业开发商、教育电子商务提供商之一,占据国内校校通、城域网软件平台50%以上市场份额..
洞察
揭秘:中小化工企业拒绝ERP的四个理由 揭秘:中小化工企业拒绝ERP的四个理由
拥有43个行业、3000多家大企业、2~3万家中小企业的化工行业,其信息化水平究竟如何呢?前不久记者采访了中国化工信息中心副主任李中。李..
SaaS概念要落地 软件提供商不能任意定价 SaaS概念要落地 软件提供商不能任意定价
软件领域任何字母都可能组合成新的名词,进而上升到概念的高度,SaaS也不例外。2003年SaaS提出,顷刻间概念飞遍了各个角落,然而,概念不..