您的位置: 网界网 > 周报全文 > 正文

[周报全文]大数据相关概念的界定与简析

2013年03月01日 15:05:49 | 作者:逸凡 | 来源:网界网 | 查看本文手机版

摘要:通过对大数据相关概念进行明确界定,企业可以正确地规划自己的数据体系,并且对传统的技术方法与新兴的技术方法进行合适的定位。

标签
大数据

另外,被内容管理手段管理起来的数据又该如何界定呢?有人说大数据就是互联网特征的数据,那传统企业就没有大数据了吗?有人说大数据就是量很大的数据,这更是无法界定了。其实,仔细分析,还是将其定义为数据处理技术最为准确。除SQL体系与内容管理技术外,大数据技术目前具有很丰富的内容。除此之外,大数据技术一定是强调低成本的。

■关系数据库技术

定义:与数据格式分类中的关系模型相比,这里是指SQL处理体系。

简析:关系型数据库技术依然是企业数据管理的核心,大数据技术的定位需要进一步地考虑与研究。

■ 内容管理技术

定义:主要是指企业对非结构化数据,也包括部分结构化数据按“内容”特征组织、管理与访问的处理方法,是企业目前除关系型数据库技术之外,最常用的另一重要的技术方法与工具。

简析:是企业目前处理非结构化数据最主要的手段,企业对半结构化数据目前基本没有什么有效管理与利用。

■ 其他技术

定义:企业还可能采用如低成本的分布式文件系统、MySQL联邦、海量内存数据管理技术,以及介于Hadoop与SQL体系之间的新技术(适用于历史数据管理)等其他数据管理技术。这些技术部分可以归入大数据技术的范畴。

简析:互联网行业常用的MySQL联邦是采用关系模型的结构化数据,但却不能等同于分布式关系型数据库。因为它牺牲了完整关系型数据库全局的一致性、完整性保证(+微信关注网络世界),却获得了更优秀的扩展性。因此它也属于大数据技术。

除此之外,分布式文件系统使企业对海量小文件管理有了新的方法,也属于大数据技术;低成本海量内存数据管理技术使交易系统的能力进一步实现低成本的提升,也属于大数据技术。可见,大数据技术是面向结构化、半结构化与非结构化数据的,而不只是针对半结构化数据。

因此,大数据更多的是指技术方法,而不是指数据格式,是指除SQL体系与内容管理技术之外,新出现的一些数据管理技术。而大数据所谓的“大”并没有相关的标准。在大数据技术中,Hadoop只是最重要的一个,而不是唯一的一个。

大数据技术可以应对的数据类型中,企业目前还没有有效管理和处理的半结构化数据,只是其最早发挥作用的部分。而实际上,它还可以应对包括结构化、半结构化与非结构化在内的所有数据类型。

总之,须要再次澄清和明确的是,大数据技术一定要是低成本的,否则没有立足点。同时,关系型数据库技术仍然是企业数据管理的核心。内容管理是目前企业组织、存储与访问非结构化数据的主要手段,如果引入大数据技术来处理非结构化数据,除更低成本的考虑外,应该是指内容管理技术尚未涉及的数据分析领域。例如图片、视频分析,但这距离银行等行业的实际需求应该还比较遥远。

企业IT人员对以上概念应该明确界定,可将其数据类型分为“结构化”、“半结构化”和“非结构化”三种。同时,企业可以将数据处理方法划分为“关系数据库技术”、“大数据技术”、“内容管理技术”及其他。在清晰地概念定义基础上,企业不但可以正确地规划自己的数据体系,并且可以对传统和新兴的技术方法进行合适的定位。(更多内容详见: http://www.cnw.com.cn/P/4700)

1 2

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]