您的位置: 网界网 > 周报全文 > 正文

[周报全文]扔了、选择、Nehalem—服务器平台发展变迁

2009年07月28日 13:42:33 | 作者:网界网 宋家雨 | 来源:网界网 | 查看本文手机版

摘要:在数据中心所消耗的电能中,只有0.0003%的输入功率转化为计算应用。 为了0.0003%需要付出99.9997%的代价。因此,处理器的一小步,绝对是绿色数据中心的一大步。

标签
服务器平台
Nehalem

【CNW.com.cn 专稿】随着处理器技术的不断进步,英特尔Tick-Tock(钟摆)策略已经为业界所熟悉,也就是处理器微架构以及芯片制造工艺隔年交替发展,AMD处理器芯片的发展也大致如此。Tick-Tock在不断带来处理器进步的同时,也有一定的“副作用”,技术发展太快,以致用户的关注度、敏感度有所下降。所谓Tick-Tock不是新闻,没有实现Tick-Tock才是新闻。

Nehalem有所不同

处理器的每一次技术进步所带来的无外乎是性能提升,功耗不变,也难怪业内的热度有所降低。但是Nehalem有所不同,从技术的角度看,还有很多需要用户关注的内容。

Nehalem是英特尔新一代CPU微架构的代码,是一种全新的处理器微架构,用于替代上一代的Bensly体系架构。需要用户对于这种体系架构加以关注的是,从Nehalem开始,处理器设计将正式划分为:计算内核(Core)与非计算内核(Uncore)两个部分。

其中,计算内核方面,Nehalem相较此前的微结构,在支持超线程、虚拟化设备输入/输出,以及内核加速模式等方面有改进和加强。在支持超线程上,Nehalem重新启用超线程技术,它具有四个核心,最多可以支持八个线程。针对虚拟化技术的支持,Nehalem引入了虚拟化设备输入/输出 (VT-d)。在虚拟化CPU为主的基础上,增加了设备输入/输出的虚拟化,以进一步提升虚拟机性能和效率。在内核加速模式(Turbo Mode)方面,用户可以根据需要开启、关闭,以及加速单个内核的运行。对于一些具体应用而言,有些任务只需要两个内核,采用Nehalem处理器,用户就可以关闭另外两个内核的运行。与此同时,提升两个工作内核的主频,以追求更高的性能。这种动态调整所带来的灵活性,可以使得用户的应用更加具有针对性,改善系统和CPU整体的能效。此外,Nehalem还新增了SSE 4.2指令集等。

与计算内核相比,Nehalem非计算内核的设计更为引人注目。其中,最为显著的变化是抛弃了传统的前端总线。我们知道,受限于前端总线(FSB)的共享设计方式,即使用户购买了昂贵的DDR3-2000顶级内存也无济于事。此前所采用的前端总线,1066MHz只能提供8.53Gb/s的带宽,1333MHz1600MHz也不过10.66Gb/s12.8Gb/s,远远低于双通道内存所能带来的真正带宽。以DDR2-800为例,其带宽可以达到12.8Gb/s(对应1600MHz前端总线)DDR3-2000更是高达32Gb/s。这就意味着,如果想要发挥两条DDR3-2000的威力,必须把前端总线的频率提高到4GHz(外频1GHz),这显然是不可能的。

Nehalem的设计中,在处理器内部集成了内存控制器(IMC)。也就是将其从芯片组上移开,集成到了处理器内部,从而彻底消除前端总线瓶颈。因此其内存读取的延迟大幅度减少,内存带宽大幅提升,最多可达三倍。此外,在缓存的设计上,Nehalem采用了三级全内含式缓存设计,其中,L1缓存的设计和此前的酷睿微架构一样;L2缓存采用了超低延迟的设计,每个内核256KBL3采用共享式设计,被片上所有内核共享。

Quick Path技术

QuickPath技术,英特尔先前公布的代号为“通用系统接口(CSI)”,它采用一种新的高速互连技术,提供了处理器与外部存储器(如硬盘),以及处理器与I/O中枢之间的高速连接。

与以往采用单个内存共享池通过FSB前端总线和内存控制器中枢连接至所有处理器不同,Nehalem架构中每一个处理器将拥有自己的专用内存,多个核心直接通过集成内存控制器实现对内存的存取。但是对于多路服务器而言,如果某处理器需要访问另外一个处理器上的专用内存,在新的Nehalem架构中,它可通过QuickPath互连访问。QuickPath互连采用点对点互连模式。采用该模式,处理器不必为了访问内存和I/O而彼此争用一条总线,避免了处理器之间相互争用总线带宽。也就是说,每个处理器的本地内存始终是存取速度最快的内存,但是当要存取的指令或数据位于另外一个处理器的专用内存中时,内存存取时间会相对较长。采用QuickPath互连,其存取时间只是稍慢一些,不会太久。QuickPath互连使用6.4 GT/秒(GT是指传输的数据数量)的链路,提供25GB/秒的总带宽。它减少了多路服务器接口所需的通信量,加快了有效载荷的传输速度。其密集的封包和通道结构,允许在更短时间内传输更多数据。它带有链路级重试功能的隐式循环冗余检查(CRC),通过提供没有额外循环性能惩罚的CRC来确保数据的质量和性能。链路级重试会继发数据,确定传输完成且无损数据完整性。

12
[责任编辑:程永来 cheng_yonglai@cnw.com.cn]