您的位置: 网界网 > 周报全文 > 正文

[周报全文]第三代NUMA服务器

2001年02月19日 00:00:00 | 作者:佚名 | 来源:$page.getBroMedia() | 查看本文手机版

摘要:第三代NUMA服务器

标签


2001.02.19 第5期

第三代NUMA服务器

明欣

现今的64位Unix并行计算服务器可分为两类:分布式共享存储结构(DSM)和群集系统。非均匀存储访问(NUMA)是一种并行模型,属于DSM这一类。NUMA的物理内存分布在不同节点上,在一个处理器存取远程节点的数据,比存取同一点的局部数据“路径”远一些,时间长一些,所以是非均匀存储访问。

NUMA模型Unix服务器采用对称多处理(SMP)系统和大规模并行处理(MPP)系统的“优势互补”,即容易编程、硬件容易扩展。目前,NUMA并行机的处理器数目可达到512个,且带宽可随处理器数目基本上呈线性扩展。这样大的处理器数,使单一系统映像的NUMA机足以覆盖绝大多数的应用。

首先,由于它具有与SMP相同的编程模式,因此在科学与工程计算领域具有不可替代的地位;其次,由于它具有共享内存和良好的可扩展性优势,所以能很好适应企业数据中心的多种应用。

存储一致性与ccNUMA

SGI的NUMA并行机采用分布式共享存储器结构,即存储器被分配到各个节点中。各节点包括1个、2个或4个微处理器,二级高速缓存、主存储器、目录存储器及集线器。集线器内有4~8个接口和交叉开关,通过专用路由器芯片与其他节点及I/O相连。在各个节点内采用SMP结构,由于只有2~4个处理器,所以不存在总线瓶颈问题。在各个节点之间采用MPP结构,实质上这是一种类似于点对点通信的互联网结构,因而解决了SMP的总线瓶颈及可扩展性问题。

在NUMA并行机中,虽然存储器在物理上被分配到各节点中,但可被系统内所有处理器访问或共享。存储一致性问题是由于多个处理器共享同一个存储单元而引起的。SGI采用高速缓存一致性(Cache Coherent)技术来解决存储一致性问题,这就是“ccNUMA“并行机名称的由来。SGI的NUMA服务器采用目录存储器来解决这一问题。存储器的每一页在目录存储器中有一个目录项,每一个目录项有“状态”和“位向量”两个域。“状态”描述该目录对应存储页的当前情况,如在其他Cache中是否有拷贝等。“位向量”的每一位对应一个处理器的本地Cache,目录存储器共有N位,N与系统规模有关,每一位的“0”或“1”用来指示对应的Cache有无该存储页的拷贝。这样,当处理器对某一页进行写操作时,根据位向量通知具有相应拷贝的Cache,这些Cache的个数比整个系统的Cache数小得多,从而解决了Cache的一致性,又大大减少了访问量。由于访问量与系统的规模无关,因而支持了系统的可扩展性。值得指出的是,在SGI的第三代NUMA服务器中,节点已被C模块代替。

NUMA3系统架构的由来

1995年,SGI与斯坦福大学DASH项目组一起设计出了第一代ccNUMA系统,由于专用芯片端口数目的限制,该系统的处理器数目只可扩展到128个。

1996年,SGI推出了第二代ccNUMA系统,该系统的处理器数目可以从32个一直扩展到512个,并且系统带宽可随处理器数目增加而线性扩展。为了进一步扩展ccNUMA架构的功能和提高灵活性,SGI在2000年秋季推出了第三代ccNUMA系统,简称NUMA3系统。即Origin3000和Onyx3000系列,新系列可以使系统的计算能力、内存容量、外存容量、图形性能及连网能力独立地扩展,NUMA3系统具有多功能性、模块化、灵活性等三大特点。用户可以根据需要量体裁衣地配置系统,因而投资可以得到充分保护。

NUMA2与NUMA3的比较

由于应用的情况不同,大型的第二代NUMA系统并不是经常能充分发挥它的潜力,其本身是一种大的超级计算机。当系统的处理器数目扩展时,它的计算能力、I/O带宽及存储容量也随着扩展。但是,随着所要解决的问题不同,有时候你可能并不需要各方面都随着扩展。计算密集的应用很少需要强大的I/O能力。同理,媒体流传输的应用需要很强大的I/O能力,但不一定需要密集的计算能力。仿真也需要密集的计算能力,但对I/O和存储器的能力要求不高。

第二代NUMA系统与第三代NUMA系统之间主要的差别,就在于消除了系统内存储器I/O、存储器之间的固定关系。第三代NUMA系统采用不同的功能模块(Brick)构成,这些模块比第二代NUMA机的模块小,功能更专一、更具可扩展性,而且尺寸标准化,这就进一步增加了系统的灵活性。两者比较如下图所示。

在第三代NUMA服务器中,采用性能更好的交叉开关Bedrock,所有的处理器和存储器通过Bedrock连接在一起。这些处理器、存储器和交叉开关的结合组成了称为NUMAlink的互连结构。另外,在第三代NUMA服务器中采用了更先进的路由芯片,通过使用特殊的光缆提供具有高带宽和极低延迟的互联网络。路由芯片所有的Bedrock交叉开关连接起来以形成一个单一的、连续的达1TB的存储空间。处理器和本地以及远程存储器之间的通信宽带(双向)由原来的1.6GBps提高到3.2GBps。另外(+微信关注网络世界),电源采用N+1的冗余方式,因此可靠性也进一步提高。

NUMA3的7种模块
NUMA3的构建模块——Brick

NUMA3结构能够灵活地构建高度可扩展的服务器和高端可视化系统。所有的系统配置都是由称为“Brick”的NUMA构建模块组成。每一个Brick提供特定的功能,并能独立于其他Brick加入到系统中,从而满足用户特定的应用需求。随着新的Brick加入到系统中,系统的带宽和性能几乎以线性增长。SGI 3000系列中一共用到7种Brick。

CBrick

CBrick为处理器和存储器模块。对系统的计算性能进行扩展只需通过增添更多的CBrick即可。每一个CBrick包含有2个或者4个64位的处理器共享一个1.6GBps的通道,因此对于本地存储器访问,每一个CBrick处理器和存储器之间的带宽总共有3.2GBps。

每一个CBrick包含一个网络接口(NI)和一个I/O接口,以连接NUMAlink线缆,从而将CBrick连接到互连结构中。NI通道将CBrick连接到系统的一个路由器上,另一通道则用于连接I/O Brick。

NUMA3中的CBrick能在一个系统中支持不同速度的处理器,每一个处理器按照其正常情况工作。这个特点使得用户可以按照需要增添新的、更快的处理器来升级系统,而不需要更换旧的处理器,并能享受新技术带来的性能提高。

RBrick

RBrick是NUMA3结构的基础,用于连接所有的CBrick。每一个RBrick有8个NUMAlink通道作为路由器交叉开关端口。其中四个通道用于连接CBrick。因此一个RBrick可以连接16个处理器。其他的四个通道用于和其他的路由节点进行通信。通过使用RBrick,系统最大可以支持128个计算节点,也就是512个处理器。RBrick和其他的Brick一样,可以在将来的任何时候独立升级。这对于系统满足将来更高的带宽需求来说是非常关键的。

IBrick

SGI 3000系列的基础I/O包含在IBrick中。SGI 3000系列支持分区以提高系统的弹性,并使数据访问最大化。

PBrick

PBrick为基于PCI的I/O扩展子系统,用于增添IBrick提供的基础I/O以外的PCI I/O扩展。PBrick为SGI 3800的标准配置,而在SGI 3200和3400中为可选配置。PBrick不仅仅为系统增添PCI槽,而且增加I/O能力。每一个PBrick包含有3个Xbridge芯片。每一个芯片有2条独立的PCI总线,总共6条PCI总线。一个PBrick提供的I/O可以达到3GBps以上。PBrick后部的两个I/O接口连接器可以使其被两个独立的CBrick拥有。

XBrick

XBrick为支持XIO接口的可选I/O扩展子系统。为了支持超过PCI总线所能提供的高带宽的应用,XBrick支持许多SGI XIO 适配卡。每一个XBrick使用一个Xtown2交叉开关,带宽可以达到2.4GBps,它为所有四个XIO槽共享。XBrick后部也有两个I/O接口连接器,可以被两个独立的CBrick拥有。

GBrick

GBrick为可选的SGI高级图形子系统扩展模块。GBrick支持一个或两个图形管道,可以选用Infinite Reality2或者Infinite Reality3,最大配置为一个4RM和一个3RM管道。已有Onyx2 Infinite Reality图形管道线的用户可以定购升级工具书将其升级为GBrick。GBrick的每一个管道线需要一个GBrick和一个I/O Brick。在Onyx 3400和3800系统中,一个图形机柜中可以配置两个GBrick,每一个有两条管道,系统可以分别支持8条和16条管道线。GBrick并非仅仅是插在I/O插槽上的图形适配器,而是一个紧密耦合的图形子系统,它具有特殊的高带宽I/O接口以提供尖端的可视化解决方案。

DBrick

DBrick为SGI 3000系列提供JBOD存储能力。DBrick可以集成到单机柜的SGI 3200和SGI 3800的I/O机柜中。每一个DBrick可以最多有十二个可热插拔的磁盘驱动器。拥有业界标准的SCA2接口连接器,两个可热插拔的400W的电源和风扇。

SGI 把模块化的NUMA技术称为NUMAflex。在超级计算机领域,SGI的模块化技术在世界已经占有一席之地。

[责任编辑:程永来 cheng_yonglai@cnw.com.cn]