您的位置: 网界网 > 周报全文 > 正文

[周报全文]多项中国创新铸就世界第一——细数天河二号背后的技术突破

2013年09月17日 17:08:49 | 作者:网界网记者 周源 | 来源:网界网 | 查看本文手机版

摘要:前段时间最令国人欣喜与骄傲的科技新闻,莫过于由国防科技大学研制的“天河二号”超级计算机登上第四十一届世界超级计算机TOP500排行榜冠军宝座。这也是继天河一号之后,中国超级计算机再次夺回世界第一的桂冠。

标签
超算
天河二号
飞腾-1500

前段时间最令国人欣喜与骄傲的科技新闻,莫过于由国防科技大学研制的“天河二号”超级计算机登上第四十一届世界超级计算机TOP500排行榜冠军宝座。这也是继天河一号之后,中国超级计算机再次夺回世界第一的桂冠。

对于超算新冠军,我们自然有很多兴趣与疑问。例如,除了速度第一之外,天河二号还有哪些令人自豪的技术特性?这个“大家伙”未来将承担哪些重任?我国在超算领域的下一个目标又是什么?等等。有幸的是,近日我们采访到了国防科技大学计算机学院教授、博士生导师、天河高性能计算机系统副总设计师卢凯和国防科技大学计算机学院研究员、天河高性能计算机系统副总设计师朱小谦博士,他们一一解答了记者的困惑。

全方位的技术创新

世界超级计算机的发展历程表明,计算能力每提高一个量级都需要一系列关键技术的新突破。因此,在行家眼中,天河二号身上所凝聚的多项自主创新更值得学习和称道。

卢凯表示,第一个创新就是体系结构的创新。体系结构是超级计算机的“筋骨”,至关重要。当年在天河一号研制中,国防科大研究人员首创了“CPU+GPU”的异构融合计算体系结构,引领了世界超算的发展方向。此次在天河二号上,该院科研人员在体系结构上又实现了新的创新,即独创了新型“异构多态”体系结构,实现了多类型计算资源、输入输出资源和服务资源的灵活配置。

“这种‘异构多态’架构,使得天河二号不仅能满足以计算为核心的传统高性能计算需求,也能兼顾以事物处理为核心的信息处理和数据分析等需求,从而让天河二号成为了一个多面手。”卢凯说。

其次,天河二号没有采用传统的“CPU+GPU”异构计算模式,而是大胆采用了“CPU+Xeon Phi”的“微异构”(Neo-Heterogeneous Architecture)计算模式,即配备了48000颗英特尔至强融核协处理器和32000颗英特尔至强处理器。英特尔(中国)有限公司行业合作与解决方案部中国区总监凌琦表示,“微异构”模式从硬件层面来看虽是异构,但却采用了统一的、已经为广大用户所熟悉和掌握的x86编程模型和应用开发及优化工具,这使得原来所有运行在至强处理器之上的高性能计算应用都可以运行在微异构平台之上,从而既享受了统一编程模式带来的便利,又能实现处理器和协处理器异构系统所能实现的出色并行计算性能。

在处理器层面还需要特别指出的是,天河二号服务阵列采用了国产CPU“飞腾-1500”,一共四千多颗,已经占到天河二号整个处理器用量的1/8。

软件方面,卢凯表示天河二号在系统管理方面比天河一号有很大的提升。例如采用了多层次的容错设计,采用了机器管理机器的自治的故障管理技术,等等。这使得系统管理人员能够及时地发现、诊断和处理故障。

此外,天河二号身上还有多项独创技术达到了世界领先水平——基于自主通信接口芯片和互连交换芯片设计,实现了光电混合的自主定制高速互连系统,性能是当前国际上最先进的商用互连系统的两倍;采用综合化的能耗控制机制,能效比进入国际先进行列;设计实现了基于背板前后对插、水平盲插的高密度高精度组装结构,使得天河二号的计算密度处于国际领先水平。

天河二号夺冠消息传来之后,网络上也流传着一种评论,大意是超级计算机计算力的提升不过是靠“砸钱堆CPU”搞出来的。对此,卢凯表示,与此前研制的天河一号相比,天河二号计算性能和计算密度均提升了10倍以上,能效比提升了两倍,二者占地面积相当,但执行相同计算任务的耗电量却只有天河一号的1/3。“这可不是简单堆CPU就能堆出来的。”卢凯说。

用好超算任重道远

今年年底,天河二号将安装到广州超算中心,主要用于科学计算、工程计算,以及广州地区信息化服务等多个领域。据悉,目前已经有三十多个用户排队申请使用天河二号,其中既包括原天河一号的用户,也包括一些新的超算用户。还有一些海外用户对天河二号也表示了强烈的兴趣。

尽管如此,如何让天河二号这个“大家伙”真正发挥大价值,依旧是广州超算因为中心最为关注的问题。因为对超级计算机稍有了解的人都知道,用好超级计算机才是最关键,超级计算机的应用水平才是一个国家超算水平的体现。而能不能用得好一台超级计算机,可不只是取决于用户数量,而要看是否充分发挥了超级计算机的性能。要充分发挥超算平台的性能,则要看上面跑的超算应用本身的水平。举例来说,像天河二号这样一个拥有212万个可运行内核的机器,如果只是用来跑那种几十个核的计算作业,无异于“高射炮打蚊子”,是一种浪费。

不得不承认,我国超算在应用和软件优化上的能力要落后于硬件系统的发展。朱小谦表示原因是多方面的:一是以前超级计算机是“阳春白雪”,大家很难找到一个大规模超算平台进行实际演练。二是相关的人才、软件投资和创新研发体制都不够健全。总之种种因素使得中国在超算应用上一直存在“计算规模受限制,计算精度、分辨率不高,关键应用受限制,不易改进和发展”等多种问题,进而造成了“大机器、小应用、软硬发展失衡”的局面。

“好在国家已经意识到了这个问题,正在加大对软件方面的投入。天河二号是国家“863”专项重大科研项目,而这个项目中也包含了若干个高性能计算的应用。同时,我国超算应用水平也在逐年提高(+微信关注网络世界),过去能用到几万个核的应用就了不起了,现在已经出现几十万核、近百万核的应用。”朱小谦说。

作为超级计算机硬件平台的研制方,国防科大下一个目标是希望在2020年前后成功研制具有百亿亿次计算能力的超级计算机。实际上,各国都卯足了劲,看谁能最快推出百亿亿次超级计算机。但这个目标并不容易实现,面临着能耗、可扩展性、可靠性、成本、可管理性等方方面面的挑战,很可能需要对现有计算机系统结构进行大幅度的革新。 (更多内容详见: http://www.cnw.com.cn/P/5160

[观察]“微异构”迎来开门红

研究第四十一届世界超级计算机TOP500排行榜榜单不难发现,除了天河二号这个冠军,榜单上还有另一个大赢家——英特尔。而令英特尔“笑开怀”的不仅是因为本期TOP500榜单上有超过80%的上榜系统采用的是英特尔处理器,更重要的是包括天河二号在内,共有11套上榜系统采用了英特尔“微异构”技术。

所谓微异构,可以简单理解为“CPU+Xeon Phi”的组合,主要有别于传统的“CPU+GPU”纯异构模式。实际上,Xeo Phi(至强融核协处理器)是英特尔去年才推出的协处理器,微异构这个词本身也是英特尔今年才创造的,短短不到一年即取得如此成绩,用“开门红”形容丝毫不为过。

英特尔宣称,这种微异构技术之所以迅速获得用户青睐,是因为具有双重优势:一是能够获得传统异构技术的优势,即在性能和能效方面可与其他处理器配加速器或协处理器的技术方案相媲美,能够满足用户的需求;二是能够避开传统异构技术的麻烦,即“CPU+Xeon Phi”从硬件层面来看虽是异构,但却采用了统一的、已经为广大用户所熟悉和掌握的x86编程模型和应用开发及优化工具,这使得原来所有运行在至强处理器之上的高性能计算应用都可以运行在微异构平台之上,而且只需通过简单、快速的调优,即可让应用中高度并行化及向量化的应用在Xeon Phi上实现理想的加速比。相比之下,传统“CPU+GPU”异构技术则需要用户费时费力地去学习新的编程模式和语言,而后才能对应用进行重新编译和迁移。

根据记者的了解,TOP500榜单之外,英特尔微异构技术已经赢得多个行业超算用户的兴趣。例如,我国的华大基因已经将基因序列比对软件BWA移植到Xeon Phi平台,还有一些石油勘探用户也将叠前深度偏移等应用移植在Xeon Phi平台,均取得了令他们满意的效果。

关于Xeon Phi和它所代表的微异构技术的未来发展前景,清华大学陈文光教授评价说:“短期内,GPU和它代表的‘CPU+GPU’技术的优势在于积累了一些软件和库,但从长期看,软件环境的优势在Xeon Phi和它所代表的微异构技术上。此外,Xeon Phi的竞争优势是制程,GPU的优势体现在利用整体显卡市场摊销研发和制造成本。从定价来看,Xeon Phi会对GPU造成很大压力。”

[责任编辑:孙可 sun_ke@cnw.com.cn]