您的位置: 网界网 > 周报全文 > 正文

[周报全文]中坚力量

2004年03月29日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:中坚力量

标签

    中坚力量

    ■ 本报记者 江波

    题解〉〉

    记得在一次对Intel工程师的采访中,他告诉记者,虽然目前来看单路CPU的服务器出货量相当大,但双路的服务器系统将很快成为主流应用的系统。这样的说法传达出两层意思:第一,应用在升级,用户对于计算量、存储、事务处理量等的需求上升很快;第二,在主频提升、内存翻倍的同时,服务器的成本并没有太大的变化,双路系统性能上比单路系统提升很多,但成本的提升相对较小。

    同样是一个趋势,国内用户使用集群系统的越来越多,尤其是在教育、石油、气象等行业,对16个节点以下的小型集群系统需求很大;还有,对于一些相对大型的应用软件,比如EDA(电子设计)方面的应用软件,需要使用SMP架构的多路系统作为硬件平台,不能够将其分散在集群系统的各个节点去跑。这样的应用也越来越多。

    这里要叙述的就是上述应用趋势驱动下的渐渐备受普通用户关注的所谓高性能计算应用的一些硬件平台或系统,包括了IA架构的集群、RISC架构的SMP系统等,这些系统正是目前服务器应用领域的中坚力量。

    现象〉〉

    集群与开放在一路高歌。

     现象一:集群一路升温

    新的千年开始时兴起了一个最重要的计算趋势,就是从上个世纪70年代的大型服务器和单片超级计算机移植到现代的集群解决方案,尤其是IA架构的集群系统,兼备高性能、标准化和显著的成本优势,带动高性能计算的需求增长,使基于集群系统的高性能计算走出科研领域而进入一些关键的商业应用领域(如金融经济建模和大型金融风险管理、业务智能等)。

    在全球超级计算机TOP500排行榜中,集群体系结构发展迅猛,去年11月第22届TOP500排行榜的前10套机器中,集群结构的系统占到7套,在整个TOP500名单上,集群系统更是达到了208套。令人刮目相看的是,IA架构逐渐成为主流,使用Intel处理器的机器数量已经从半年前的119套增加到189套,随之,Intel的处理器家族已经成为目前高性能计算系统使用最为广泛的处理器(紧跟其后的是HP的PA-RISC和IBM的Power架构)。从下表中可以了解到TOP500排名中集群系统发展迅速的一些数据证明。另外,峰值已经不是惟一的衡量目标,带宽和吞吐量的大小以及商业应用情况逐渐成为大家关注的重点。在我国,随着高性能计算潮流的兴起,中国软件行业协会数学软件分会从2002年开始进行的年度排名(仅限于国内)从2002年进行的TOP50排名增加到2003年的TOP100,其中集群系统从2002年的7套增长为2003年的26套,2003中国TOP100中有7套系统进入全球TOP500。高性能计算集群已经成为高性能计算市场的主流。

21届TOP500排名(去年上半年)22届TOP500排名(去年11月)
前10套总排名
集群系统所占数量1497208
IA架构的集群系统所占数量119189

    在国内,很多高校的中小型科研项目组所需求的计算量集中的小型集群系统很多都采用了国内厂商的集群产品,比如一些数学、物理方面的科研项目,还有石油物探方面的研究,前不久在石油大学的石油勘探研究项目就采用了方正科技研制的基于Xeon处理器的16个节点的集群。

    在气象领域,很多省市的区域级气象预报越来越多地采用集群系统将采集到的气象云图、空气质量因子等进行运算,得到及时准确的预报信息;在游戏领域,日渐流行的在线网络游戏对于集群系统的需求开始增大,集群系统的高可用和优异的扩展性能够满足在线网络游戏对于大用户量访问和稳定性等方面的需求。

     现象二:Linux带来了开放

    在去年曾经做过的一期关于高性能集群的专题中,曾详细分析了IA+Linux将构成集群系统的“神话”,的确,性能上的爆炸式提升、成本上的优势以及更为重要的开放性使得这类的集群系统越来越风行,入门的门槛虽然低,但性能不打折扣、能够以经济的价格满足应用需求是其最大的特点。正是开放和成本的优势,使得众系统厂商愈加青睐于Linux,我们看到,保守了许久的RISC架构的系统开始支持Linux。就在不久前,IBM更新了其Unix服务器产品线,并且宣布p690将运行SuSE和Red Hat Linux系统。IBM认为,在广泛的硬件平台上运行Linux,可能最终为用户带来极大的好处。

    开放的平台必将得到更广泛的支持,也必将得到更广泛的应用,IBM的p系列又向开放的应用跨出了一步。

    事件〉〉

    技术更新带来新的机会。

    事件一:RISC架构在行动

    从去年Sun的很多产品降价开始,RISC架构的服务器系统似乎开始了“步入寻常百姓家”的旅程。不用多说,来自Intel的安腾、至强以及各种集群系统的冲击实在是太大,RISC+Unix的经典组合统治的高端应用阵地岌岌可危,安腾设计之初的打击目标就是被RISC服务器牢牢统治着的应用领域,如今,HP的“动能服务器”和动成长企业战略、国内的各大厂商推出的安腾服务器遍地开花,这样的来势汹汹真的让人为RISC王国担心。

    不过,很令人惊奇的是,在我们前些时候做的一些简单的用户调查中了解到,很多用户对HP、IBM、Sun的RISC架构服务器很感兴趣,希望多了解一些这样的系统,原因主要是对服务器系统安全性、稳定性方面的要求和考虑越来越多。

    令我们欣慰的是,这些服务器大厂们的RISC架构服务器系统一直没有停止过创新和跋涉。

    3月初,HP借助其新一代的PA-RISC处理器,全面增强了HP 9000服务器。新的PA-8800处理器采用双核设计,处理器密度提高一倍,整个HP 9000服务器系统伸缩性从2路到128路。据HP的技术人员介绍,新的PA-8800在单块芯片上部署了2个CPU内核,每个CPU内核有各自的一级高速缓存,具有容量为32MB的统一二级高速缓存,并带有先进的高速缓存控制器,PA-8800采用线程级并行技术,速度更快,性能更高。但是,采用指令级并行技术的安腾系统性能上仍高于PA-8800,如图1所示,所以HP认为,安腾2处理器系列是PA-RISC系列产品理所当然的替代者。基于PA-8800的系统采用与基于安腾2架构的HP Integrity服务器相同的基座和芯片组,未来可以机箱内升级到Integrity。


图1:HP的测试结果

    不过,HP高性能计算方面的专家认为,基于PA-RISC系列处理器的SMP系统与其他的实现高性能计算的集群系统还会并存很长的时间,目前HP的9000产品系列伸缩性是领先的,可以达到128个处理器,虽然安腾架构的动能服务器可以替代HP 9000产品所覆盖的一些应用领域,但是仍然有一些应用是需要运行在大型的单一硬件平台上的。

    IBM在近期也更新了其高端Unix服务器,内存访问量增加一倍,性能提高20%。IBM 称,p690最近已完成了TPC-C基准测试,在该测试中,p690每分钟交易处理量超过100万次,成本为5.43美元/tpmC。

    IBM还将很快开始发售其1.9GHz Power4+处理器的p690服务器,他们还打算推出一种新的内存卡,这种卡可使该高端系统支持的内存量增加一倍。p690是IBM p系列Unix服务器中功能最强的服务器,所配置处理器数量为8到32个,据称,该服务器目前所支持的内存高达512GB,但IBM 将于6月25日开始提供具有新的128GB DIMM(双在线存储模块)卡的系统,使内存增加量最高可达1TB。

    IDC的报告显示,Unix市场2003年第三季度减少了3.8%(现在获得的最新数字),但IBM的p系列服务器销售却不错,销售量增加了2% 。IBM在该期间将包括p690和中档的p670和p655在内的许多p系列产品升级为Power4+处理器。

    据称,IBM已经根据配置情况将1.5GHz和1.7 GHz p690服务器降价12%到15%。这类型的服务器目前在欧美的市场很受关注,HP、IBM、Sun已经在价格上展开了战事。性能上的不断提升加上价格的走低变化,这类服务器相信在企业级应用中将更受关注。

    Sun推出采用AMD Opteron处理器的服务器已经让我们震撼了一次,很快,Sun又宣布将推出基于其全新的芯片多线程 (CMT) UltraSPARC IV 处理器的系统,Sun称,这样的 Sun Fire 企业服务器提供的应用程序吞吐量几乎是同一级别的 UltraSPARC III 处理器系统的两倍。从12路系统到72路系统(配有 96GB 到 576GB 的内存), Sun Fire 企业服务器可以处理要求最为严格的网络计算工作量。

    UltraSPARC IV 处理器实现的双线程处理能力使计算密度翻了一番,同时减少了整体散热,Sun同时改进了二级高速缓存配置,每个线程都能访问8MB 2路成组相连二级高速缓存,改进后广泛平衡了大量数据集的高速缓存效率,在更大范围增强了通用应用程序的性能水平和吞吐能力。UltraSPARC IV 处理器还采用了增强型浮点运算器(FPU)和增强型写高速缓存等关键技术,旨在提升浮点运算性能和减少高速缓存总线写带宽的低效使用现象。

    结论:RISC架构处理器的双核设计、芯片多线程技术的采用、缓存机制的改进等等,都给目前的RISC系统带来了性能上的大幅度提升,给用户带来了关键业务领域应用的更为先进的硬件平台。同时,值得关注的是,RISC系统的整体成本在走低,价格与原有的系统价格项差不多,还有RISC系统开始支持Linux操作系统的现象。这说明,以往的高端贵族形象十足的RISC系统,正在慢慢向中低端的应用移动,扩大其应用的领域和空间。

    事件二:集群引领国产服务器走进高端

    集群的广泛应用和流行给了国内的服务器厂商们更大的机会。中科院计算所对于服务器集群系统的研究以及更深层的网格系统的研究,都给了国内的各大服务器系统厂商们深厚的技术支持,曙光、联想、浪潮、方正等目前都拥有承担高性能计算的集群系统产品,尤其是曙光和联想,分别承担起了国家的两个网格主节点——分布在北京和上海,分别为基于AMD的Opteron处理器和基于安腾2处理器的大规模集群系统,这种标志着国家整体科技水平的集群项目不仅在科研上形成了一定的突破,更重要的是,这种科研成果已经直接转化为了实际的应用。

    事实上,现在国内的集群系统已经进入了一个相对成熟的时期,除了众服务器厂商们都具备了提供集群产品和解决方案的能力,还有一个重要的特征,就是一些厂商还具备一些关键的集群技术和提供定制的、成熟的解决方案的能力。比如曙光,他们拥有已经形成产业化、规模化生产的成熟的TC1700集群产品,这类产品目前已经可以通过渠道合作伙伴进入到用户的机房;他们去年年底发布的双路Opteron服务器,就是标准化的基于AMD64技术集群的节点机。从技术上看,曙光的集群产品,尤其是曙光4000A拥有了多项领先的技术和成果,包括:工业标准集群采用工业化量产的部件构造高性能计算机,使高性能计算机的门槛大大降低;支持可扩展和海量数据处理的集群文件系统;具有自主知识产权的高密度主板和2U 4路机架服务器,能在50平米内聚集10万亿次计算能力,提高了集群系统的可扩展性;大规模集群的集成式管理网络,集成了主板管理、硬件监控、KVM切换、系统电源控制等大规模集群的管理功能;支持多种计算模式的操作系统动态部署,通过多种技术支持32/64位计算、Cluster/MPP计算、交互式/协同计算、服务器聚集计算、Wintel模式,使系统服务用户多种需求的能力大为提高。同时,在网格计算的尖端领域,在石油、气象、科学计算等领域,曙光都拥有了比较成熟的应用方案和大量的用户。

    结论:通过将很多高端的技术下移、自主研制的多种集群技术、针对行业应用的成熟方案以及更优的性价比,国内服务器厂商的集群产品具备了与国外服务器厂商们的高端系统竞争的实力。集群,对于国内厂商来说,不仅是冲入高端应用的机会,更是打开更广阔市场的机会。

UltraSPARC IV处理器增强性能

特性好处
运行于UltraSPARC IV处理器的每个线程,都能通过128字节行大小(每行1个子块)访问8MBL2高速缓存,或通过64字节行大小(无子块)访问4MB L2高速缓存。 增加了大量应用程序的高速缓存效率,由此提高线程性能水平。
L2高速缓存采用最近最少使用(LRU)的逐出策略。LRU是一种高速缓存逐出策略。它能够改进高速缓存命中率,加快执行速度,改进系统吞吐性能。
支持更高的系统时钟除数。允许实现150MHz高时钟倍数,从而增加整个系统的吞吐性能。
提供L2高速缓存地址总线误差防护功能。提高系统的可靠性。
为写高速缓存提供散列索引功能。在出现许多写入流期间,减少冲突故障,从而增加写存储带宽,提升整体性能。
附加硬件支持IEEE 754-1985浮点异常处理。由处理器硬件逻辑执行异常处理,不依靠操作系统软件(+本站微信networkworldweixin),以此减少系统开销。
软件预取语义和硬件预取高速缓存结合使用。提高系统浮点性能。


芯片多线程(CMT)增强特性(以Sun的UltraSPARC IV为代表)
    存储器控制单元(MCU)寄存器、引脚和Sun Fireplane互连寄存器等资源都可以共享。因此,处理器的每个线程都能够访问这些寄存器。例如,允许每个线程修改存储器控制器的时值。
    增加了新的寄存器,以支持Sun标准芯片多线程模型,使当前和未来操作系统能够与Sun所有的CMT处理器实现标准交互和兼容。
    处理器寄存器通过CMT相关值实现初始化。例如,确定由处理器2个线程中的哪一个处理高速缓存故障。
    增加了新型线程ASI-CESR-ID寄存器。这是一个与Sun Fireplane互连块I/O相关联的线程ID。远程设备可以识别块数据移动的源线程。
    注:多线程技术是与多核技术并行的提高处理器性能的技术,与多核技术相结合,可以提升处理器线程级并行度,是处理器技术发展的新趋势。

    声音〉〉

    其实,只有用户的声音最能够说明问题。

    高校科研项目组——

    刚刚购买了方正科技的集群系统产品的石油大学勘探实验室在接受记者采访时提到,他们选择方正科技提供的HPC(高性能计算)解决方案,很重要的原因之一是方正科技的服务令他们满意,因为高性能计算机越来越复杂,安装、调试、维护的要求都越来越专业化,厂商的服务支持是否到位就显得很重要。记者了解到,方正科技根据石油大学勘探实验室的需求提供了一套完整的HPC解决方案,该方案采用服务器集群技术,硬件方面由32个2U方正圆明MR200A双路至强服务器节点组成;软件方面采用RedHat Linux 7.3及运行在其上的集群软件和状态监控系统。方正科技提供了专门的技术人员为石油大学勘探实验室调试这套系统,并花费了几个月的时间对系统进行优化和测试,测试主要是针对应用软件,根据应用软件的运行要求对硬件系统进行相应的优化。

    在对其他的一些高校科研项目试验小组的采访中,记者了解到,这类的用户对于使用集群系统的顾虑有两方面:成本和服务。教育科研资金的紧张使得他们不得不对资金投入非常谨慎,而集群系统的相对复杂更要求厂商们提供及时、到位的服务,尤其是应用软件运行在并行化设计的集群系统上需要大量的调试和优化,硬件的扩展性也需要厂商的及时支持。

    普通教育行业用户——

    北京市教委信息中心去年采用了曙光TC1700集群系统作为北京教育城域网E-Mail服务器主机,为北京市19个区县超过150万的师生用户提供电子邮件服务,记者采访到了该中心的维护人员由志田,对于这套集群系统的使用情况,记者了解到,他们使用了20个节点机构成的集群系统,每天大约有数万人使用运行其上的亿邮E-mail系统,这套系统能够提供非常稳定的服务,使用近一年的时间,没有停机。他认为,这种成本相对低廉的集群系统在稳定性、可靠性方面非常优越,运行大型的E-mail系统很有保障。

    气象行业用户——

    北京市环境保护监测中心使用集群系统主要是进行大型的数据运算,该中心的网络中心工作人员陈华告诉记者,他们每天将下午采集到的气象信息数据输入计算系统,进行2个多小时的运算后,必须在下午4点前将结果返回,预报气象情况,这样大计算量的应用需求促使他们想到了使用集群系统。陈华认为,高性能计算集群系统的稳定性、扩展性和强大的计算能力非常适合模式运算,适合气象预报这样的大运算量的应用。

    保险行业用户——

    记者采访到了太平人寿上海总部的电脑部工作人员,了解到目前他们使用了中间件级的集群技术来保障关键业务的运营,没有使用到硬件的集群系统。保险公司的关键业务数据、客户数据等是他们业务的最核心部分,保障这些数据安全稳定地保存、修改、传递等至关重要,所以他们对于高可用的系统更感兴趣,迫于成本的考虑,他们也很希望更多地了解和接触国内厂商的产品,当然,主要是高可用的集群系统。

    案例〉〉

    HP安腾2集群承载油气储藏模拟解决方案

    面对可持续性发展并保障供应的能源发展需求,要求石油和天然气(下简称油气)行业能够更精确、更经济、更快速地模拟地下矿藏的分布和预测储量,支持开采工业的发展。Schluberger信息系统公司(SIS)在以HP安腾2服务器为计算节点的Linux集群上开发的ECLIPSE Parallel油气储藏模拟解决方案,能够全面满足油气矿藏勘探信息系统对于更强的计算和数据管理能力、支持更丰富应用软件、存储和处理TB级海量数据的需求。

    SIS ECLIPSE Parallel油气储藏模拟解决方案由系统平台(HP Linux ClusterBlocks集群系统)和ECLIPSE Parallel模拟软件两大部分组成。ECLIPSE Parallel模拟软件负责完成矿藏模拟的数值计算,它把整个数值求解问题分解成一系列较小的子问题,送到各个计算节点上并行地求解,然后再合成完整的结果。系统平台HP Linux ClusterBlocks集群系统包括计算节点、互联设备、操作环境和集群管理及作业高度四个层次。(整体应用架构如图2所示。)


图2:整体应用架构

    IBM p系列构建山东大学高性能计算中心

    2003年,山东大学选择了IBM eServer p690服务器和IBM eServer p630服务器组建山东大学高性能计算中心。作为中国教育和科研计算机网络(CERNET)华东地区的主节点,山东大学高性能计算机系统将实现计算资源、存储资源、通信资源、软件资源、信息资源、知识资源的全面共享。

    山东大学高性能计算中心项目采用的IBM p690服务器涵盖了用户可以从一个数据中心级Unix服务器上期望得到的所有功能,它采用大型机的逻辑分区技术,轻松支持负载整合,允许Linux和AIX应用在不同分区同时运行;p630采用IBM POWER 4+微处理器,是目前行业内极具竞争力的入门级4路互联网服务器,其LPAR功能能够将服务器划分为最多四个“虚拟”服务器,这些拥有一个处理器的系统在此基础上还可以进行动态的改变,进而适应不断变化的负载要求。

    曙光超级服务器服务《传奇世界》

    内蒙古通信公司2003宽带应用系统主要利用原有宽带多媒体网络,在全区开展与上海盛大网络公司合作的大型网络游戏《传奇世界》,区中心设置的统一硬件平台采用曙光为其定制的一套基于高性能计算平台的集群系统,该系统采用的核心设备就是曙光在2003年刚刚推出的曙光4000L超级服务器。

    “曙光4000L”是每秒万亿次以上运算能力的Linux超级服务器,以支持数据密集应用为主,同时能支持科学与工程计算、网络与信息服务、事务处理等多种应用。曙光为内蒙古通信公司搭建的集群系统由6组机群组成了曙光4000L超级服务器,每组9台节点机,包含1个数据库服务器节点、4个游戏服务器节点、4个游戏网关节点、2个24口100M交换机(2组节点共享)、1个16路视频切换器、1套外置控制台。节点机全部选用了曙光R220XP服务器。

    内蒙通讯公司现今已经在全区开通了《传奇世界》,由于后台配备了超级服务器作为动力支持,使得供应商实现了可以同时支持4350人在线的服务能力。 ■

    编看编想

    实用为先

    ■ 姜波

    虽然觉得是老生常谈,也觉得说的有点腻了,但是,还是不得不说。

    用户对于高端产品的应用顾虑,抛开成本的因素,就是服务,而服务说白了,就是能否提供将系统运行实际应用、解决实际问题的所有支持,包括系统的安装、调试、优化、后续的维护、升级、扩展等等一系列的问题。

    现在,虽然高端技术的下移、高端系统呈现出前所未有的低姿态给很多用户带来了一些应用上的满足,但是,这绝对不是高端抛过来的施舍,而是,必然的一种趋势、一个事实。计算机系统最终都是为了应用,高端也好,高性能计算也好,都不可能例外。高性能计算应用涉及到各个门类的研究,都需要有非常细致化的应用开发工作,而目前厂商们在宣传和提供服务方面表现出的浮躁显然沉淀不到真正的应用中去。

    记者在采访某些保险行业的用户时,闲谈中聊到了关于新技术的话题,在技术板块探索许久的我,对新的技术产品一直保持着高度的警惕性和关注度,但是,从用户那里得知,他们并不关心那些离应用还有十万八千里的新鲜玩艺,他们只是关心自己的关键业务能否顺畅运营、自己的关键数据能否安全稳定的传递和储存、自己遇到的运算速度慢、可靠性差等等实际问题能否快速帮忙解决。即使遇到了一些需要使用新技术和产品的问题,也需要大量的时间去测试和调优,看能否在真正的应用中将新技术或产品的优势发挥出来,解决实际的问题。这些,都需要实实在在的服务,而不仅仅是厚重的宣传资料、花花绿绿的宣传卡片。

    既然是老生常谈,还是少说为妙,总之一句话,实用是一个先决条件,也是最根本的东西。

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]