您的位置: 网界网 > 周报全文 > 正文

[周报全文]“大数据”的大承诺

2010年09月28日 15:54:00 | 作者:于翔编译 | 来源:网界网 | 查看本文手机版

摘要:面对海量的业务数据,Hadoop和其他工具正在试图揭示企业与外部数据的关键内幕。

标签
海量数据
Hadoop

【CNW.com.cn 专稿】在追求竞争优势的无止境征程中,企业开始求助于企业与外部数据的大型信息库来发现趋势、统计数据,以及其他帮助决定下一步行动的全面精确的信息。这些数据以及相关工具、平台和分析技术常常被称之为“大数据[注]”(Big Data)。如今,“大数据”这一术语在技术人员和IT经理[注]等群体中变得越来越流行。

“大数据”已经在多个领域证明了它的重要性和价值。像美国国家海洋与大气管理局(NOAA)、美国国家航空航天局(NASA)这样的研究机构、多家医药公司和多家能源公司都积累了大量的数据,现在每天都在利用“大数据”技术从这些数据中获取价值。

NOAA利用“大数据”进行气象、生态系统、天气和商务研究。NASA则将“大数据”用于航空和其他领域。医药公司和能源公司利用“大数据”获得更真实的结果,例如药品测试和地球物理分析。

“大数据”对今天企业的价值还体现在另外一方面。大型机构面临着维护海量结构化和非结构化数据(从数据仓库中的交易数据,到雇员的微博,从供应商记录,到管理文件)的需要,以遵从政府的法规。最近的几场官司更是对这种需求起到了推波助澜的作用。它们促使企业保留大量的文档、电子邮件和其他在打官司时实施电子发现(e-Discovery)可能需要的电子通信记录(例如即时消息和IP电话)。

也许,那些追逐“大数据”的机构面临的最大挑战是获得一种平台,这种平台可以保存与访问所有当前与未来的信息,并高性价比地在线提交信息供分析之用。这意味着一种高可伸缩的平台。这类平台由存储技术、查询语言、分析工具、内容分析工具,以及传输基础设施(其中有很多需要由IT部门部署和维护运营的设备)构成。

目前有许多获得这些工具的专有与开源资源。这些工具常常来自新兴厂商,但也有像亚马逊和谷歌这样的知名云技术公司。事实上,云的使用解决了在数据存储和计算能力方面“大数据”的可伸缩性问题。但是,“大数据”不一定采用“自助式”的部署。IBM和EMC等大厂商同样提供用于“大数据”项目的工具。这些工具的费用会很高,企业需要付出更多的部署成本。

Hadoop为核心

在开源领域中,Hadoop可算是大名鼎鼎。Hadoop是由Apache软件基金会管理的一个项目,包含由谷歌驱动的、用于构建整合、组合和了解数据的平台技术。

从技术上看,Hadoop由两项关键服务构成:采用Hadoop分布式文件系统(HDFS)的可靠数据存储服务,以及利用一种叫做MapReduce技术的高性能并行数据处理服务。这两项服务的共同目标是,提供一个使对结构化和复杂数据的快速、可靠分析变为现实的基础。在许多案例中,企业将Hadoop与老的IT系统部署在一起,从而能够以有力的新方式组合新旧数据集合。Hadoop让企业可以根据自有信息和问题定制,更容易地分析和研究复杂数据。

Hadoop运行在商用独立的服务群集上,你可以随时添加或删除Hadoop群集中的服务器。Hadoop系统会检测和补偿任何服务器上出现的硬件或系统问题。换句话说,Hadoop是自愈系统。在出现系统变化或故障时,它仍可以运行大规模的高性能处理任务,并提供数据。

虽然Hadoop提供了数据存储和并行处理平台,但其真正的价值来自于这项技术的添加件、交叉集成和定制实现。为此,Hadoop还提供向这一平台增加功能性和新能力的子项目,具体如下:

■Hadoop Common:支持其他Hadoop子项目的通用工具。

■Chukwa:管理大型分布式系统的数据采集系统。

■HBase:支持大型表格结构化数据存储的可伸缩、分布式数据库。

■HDFS:向应用数据提供高吞吐量访问的分布式文件系统。

■Hive:提供数据汇总和随机查询的数据仓库基础设施。

■MapReduce:用于对计算群集上的大型数据集合进行分布式处理的软件框架。

■Pig:用于并行计算的高级数据流语言和执行框架。

■ZooKeeper:用于分布式应用的高性能协调服务。

Hadoop平台的多数实现至少包括其中的一些子项目,因为这些子项目常常是利用“大数据”所不可或缺的。例如,大多数机构会选择使用HDFS作为主分布式文件系统,选择可以保存几十亿行数据的HBase作为数据库。而使用MapReduce则几乎是肯定的事情,因为其引擎赋予了Hadoop平台速度和灵活性。

利用MapReduce,开发人员可以开发跨处理器分布式群集或独立计算机的、并行处理海量非结构化数据的程序。MapReduce框架可以划分为两个功能区:其中Map具备将工作分配给分布式群集中不同节点的功能。Reduce则负责核对工作,将工作结果转化为单一值。

MapReduce的主要优势之一是容错性。MapReduce是通过监测群集中的每个节点来实现容错性的。每个节点定期向MapReduce报告和返回完成的工作与状态更新。如果某个节点的静默时间长度超出了预期值,主节点就会发出通知,并把工作重新分配给其他节点。

12

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

2.CIO:(Chief Information Officer),首席信息官,亦可称之为信息主管、信息总监等,是企业中信息化建设“统筹”人,是企业中不可或缺的高级主管职位之一,主要负责企业内部信息...详情>>

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]