您的位置: 网界网 > 周报全文 > 正文

[周报全文]油气勘探迈入大数据时代 现有HPC技术亟须革新

2014年08月28日 14:17:05 | 作者:网界网记者 周源 | 来源:网界网 | 查看本文手机版

摘要:近一两年来,大数据热度赶超云计算,但要说真正已经面临大数据严峻挑战的,能源领域的油气勘探业绝对算一个。在该行业,海量数据处理正使得传统HPC技术日益捉襟见肘,受到越来越多行业专家的高度重视。

标签
HPC
大数据
油气勘探

近一两年来,大数据[注]热度赶超云计算[注],但要说真正已经面临大数据严峻挑战的,能源领域的油气勘探业绝对算一个。在该行业,海量数据处理正使得传统HPC技术日益捉襟见肘,受到越来越多行业专家的高度重视。

新物探技术引来海量数据

油气勘探业的大数据从何而来?这要从油气勘探的工作方法说起。

当前,油气勘探专家们主要利用地震波法来“找油”。 所谓地震波法,简而言之就是用炸药在地面激起人工地震波。这种地震波可传入地下深处,并在碰到不同形态的地质构成时形成不同的反射波,这些反射波经地面的检波器收集,转变成电子信号后可存储为数据,再通过高性能计算机(HPC)对这些数据进行处理(因此,油气勘探行业是典型的HPC用户),人们就能清晰地模拟还原出勘测区域的地下地质构造,并找到那些存有石油或天然气岩层的精确位置。

通过地震波法收集的数据非常庞大,近年来数据的增长尤其惊人,TB级是常态,甚至朝着PB级规模发展。

“这是因为油气勘探业出现了高密度、宽方位地震采集技术。”中国石油东方地球物理公司研究院处理总中心总工程师赖能和说。

中国石油东方地球物理公司研究院处理总中心总工程师 赖能和

据介绍,高密度、宽方位地震技术是近年来国外发展较快的物探技术之一,采用该方法获得的地震资料较好地解决了压制噪音、提高分辨率和保真度等难题,比常规采集技术能获得更精准的成像效果。

采集数据量呈十倍,甚至百倍增长,则是高密度、宽方位技术带来的必然结果。以我国西部某油田数据统计的12块三维工区为例,2013年采集的数据量比2011年多27倍。而东方物探研究院如今每天增长的数据量以TB计。某石油勘探企业的一负责人最近就很着急,因为“手上一个单文件就有50TB,不知如何处理。”

赖能和表示,如此庞大的数据除了对HPC软硬件提出更高配置要求之外,还出现诸多技术疑难新问题。例如,如何充分发挥HPC应用效率?如何通过软硬件技术优化配置来提高系统运行效率?如何构建稳定、高效、简单、易用的海量存储?如何解决计算域存储之间的性能瓶颈?如何实现算法并行化?如何高能耗与制冷等。

“简言之,海量数据处理对传统HPC技术提出了更高要求。”赖能和说。

改进方向:“三高两大”

赖能和所在的东方物探是国内率先采用高密度、宽方位地震技术的勘探企业之一。因此,他们对如何改进现有HPC技术,以应对海量数据处理有实际心得,并总结为“三高两大”。

第一,HPC节点要求配置更高。因为地震处理流程中如数据分选、地表一致性处理等算法,要求在一个HPC节点里同时输入海量数据参与运算,HPC节点最好配置数百GB的大内存、几个TB的本地磁盘和读写性能更好的硬盘介质。

第二,数据网络要求高,需要采用全线速、无堵塞、低延迟的万兆以上网络。实际上,无论多大的超级计算机,设计并灵活方便地实现数据的高速输入输出是至关重要的,数据交换网络成为影响系统效率和生产效率的关键因素。据悉,东方物探去年一年投入四百多万元,将原有的千兆网升级为万兆网络,并已经开始使用4万兆的以太网。

第三,存储性能要求高。海量数据处理运算时间长,每步同时有近千个任务不停存取海量数据,对存储的I/0性能和稳定性要求很高(+微信关注网络世界),需要采用海量并行文件系统。

须要强调的是,赖能和认为存储是海量数据处理中最难的一点。“无论哪一家的存储系统都只是针对某一种应用性能好,而不是对所有应用都好。这不仅是硬件问题还有软件问题,存储系统的硬件和CPU、网络这几样东西要匹配才能发挥作用,所以最难的还是存储。我们自己从2009年开始,每两年投入100多万元专门做存储的研究,但实际效果并不是特别理想,问题还是并行文件系统这块。”他解释说。

此外,赖能和表示东方物探已经采用SSD(固态硬盘),因为在海量数据处理上,“没有SSD很多作业根本过不去”。

第四,需要有大规模并发处理的计算节点资源。因为数据量巨大,通常需要将某一步的海量数据分解为数千个并发作业任务,需要有足够多的并发计算节点资源。赖能和认为,基于多核CPU+协处理器会成为主要应用平台。

第五,只有大规模、稳定的并行系统,才能满足海量地震数据处理工业生产需求。此外,赖能和表示,基于水冷等新型节能绿色环保新技术,将成为数据中心建设关注重点。

油气勘探用户面临的问题显然需要全面的技术创新,包括英特尔在内的一些HPC厂商对此高度重视。

英特尔(中国)有限公司企业解决方案部能源行业资深企业客户经理杭晓东告诉记者:“从赖总的观点可以看出,HPC各个组件更好匹配,才能发挥它最大的效益。也就是说,不光要关注计算性能,同时要关注存储、网络互联、文件系统等整个系统。这也是为什么英特尔特别重视端到端解决方案的理由所在。”(更多内容详见: http://www.cnw.com.cn/P/5900)

参考资料

1.大数据:(Big Data),研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 ...详情>>

2.云计算:(Cloud Computing)描述了一种基于互联网的新的IT服务增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展而且经常是虚拟化的资源。云计算是继1980年代大型计算机到...详情>>

[责任编辑:孙可 sun_ke@cnw.com.cn]