您的位置: 网界网 > 周报全文 > 正文

[周报全文]谷歌服务器内置UPS技术解析

2013年09月22日 14:35:45 | 作者:腾讯网络平台部数据中心规划组 李典林 | 来源:网界网 | 查看本文手机版

摘要:谷歌摒弃了传统低效率的集中式UPS供电,而采用市电直供的分布式小UPS供电,在并没怎么降低可靠性和可用性的情况下,极大地简化了供配电结构,最终大幅提高了服务器电源能效。

标签
谷歌
谷歌服务器
服务器内置UPS

UPS处于交流供电环节的最重要一环,数据中心里几乎所有的IT设备必须有UPS供电。有关数据显示,每100度的服务器用电就有近10度电白白消耗在UPS环节。除此之外还有很多的应急水泵、空调风机、弱电系统等也常常采用UPS系统做掉电保护,大型数据中心的UPS装机总容量均已达到大容量或超大容量等级。提高UPS运行时的能效势在必行。

集中UPS供电弊端

传统数据中心集中式UPS系统的工作模式多采用双变换在线工作模式,即通过“AC-DC整流和DC-AC逆变的双变换”给IT负载提供稳定的净化电源。

不过这一模式存在不足,即UPS的效率较低,在满载情况下其最高工作效率也只有92%~95%。如果对于当前数据机房普遍采用的2N电源系统架构,其正常工作的最大负载率仅为40%左右。在这一负载率下,UPS的工作效率也相应降低,通常只有80%~90%左右。即便是采用N+1的冗余配置,因为集中式UPS的容量颗粒度很大,总体负载率也不高。此外,集中式UPS多采用一次性建设到位,但实际负载增长较慢,使得UPS系统长期运行在很低的负载率下,导致低效率运行。这些都导致了能源的极大浪费并降低了整个数据中心的PUE指标。

除了基础设施层级UPS环节的能耗很高以外,每个服务器等IT设备层级也都配备有服务器电源模块。通常每台服务器内配置有两个服务器电源,正常工作情况下两个服务器电源同时工作并均分负载,将UPS的交流220Vac输入整流成12V,以及5V输出电压,给主板和硬盘等相关部件供电。主板上还有一级VRM电源再将12V输入进一步降压到1.3V电压给CPU,以及周边芯片供电,多级转换效率不高。此外,单个服务器电源的容量冗余较大。例如笔者见过有典型负荷为300W的服务器配了750W的电源,而正常工作时每个服务器电源只能分摊150W的负荷,因此负载率只有20%。同样,服务器电源也有负载率低,转换效率也很低的特点,此时服务器电源效率往往只有70%不到。综上,整个服务器供电路径非常复杂,以及多处冗余,造成真正用于计算的能源不足30%。

谷歌服务器内置UPS技术原理

目前大多数企业的服务器都是从戴尔、惠普、IBM等IT设备厂商购买的商用标准服务器。为了保障业务的可靠性,这些商用服务器都使用了前面介绍过的集中式UPS架构和服务器双电源保障,运行效率很低。对于谷歌来说,百万级数量服务器的节能要求极其苛刻,与UPS相比,电池的成本更低,且电池比UPS更有效率。通常,大型UPS的最高效率为92%~95%,这意味着一部分电能被浪费掉,而电池的有效率为99.9%。因此谷歌在基础设施层级放弃了使用大型集中式UPS电源,改用市电直供,获得近99.9%的供电效率。而在IT设备层级,谷歌自己设计服务器系统,每个服务器的电源只配置了一个高效率的服务器电源,且电源容量接近实际负载需求,这样负载率高,供电效率也很高。谷歌还在每台服务器内配备了12V的备用电池作为分布式小UPS,当市电电源发生意外时,电池可以继续供电,保障业务的持续性。

在硬件层面的可用性与效率的选择上,谷歌再次选择了效率。相比于传统集中式UPS长达半个小时,甚至一小时的备电保护时间,谷歌服务器内置的分布式电池只能保持在市电断电后的很短几分钟内继续供电,直到柴油发电机起来承担所有负载。battery-on-server(服务器上的电池)基本上不能扩展,但它确实提供了一个分布式的电池备份,消除了传统设计对中央UPS的需要。如果市电长时间停电,主要还是依靠备用发电机来持续供电,这是谷歌在数据中心效率峰会上特别指出的:“如果发电机在几分钟内无法启动,这说明你有更大的麻烦,因此最好有一个以上的断电保护策略。”谷歌是采用业务软件层面的冗余来保障,例如数据的多重备份等。因此整个系统的健壮性不是靠硬件冗余来实现的。

在服务器电源方面,谷歌一直在开发更高效率的服务器电源,以减少浪费电源。谷歌服务器的电源转换效率不是典型的65%~85%(图1),而是效率在92%,甚至更高(图2)。如果愿意花钱用更好的器件的话,效率还会更高,甚至可以到94%以上,且只有一个12V整流输出电压轨,可以兼容不同服务器主板的使用。

   

图1 传统服务器电源架构                图2 谷歌创新的服务器电源架构

图3是个典型的传统服务器电源内部结构,图4是谷歌服务器电源的内部结构。从两张图片可以看出,采用单一输出的谷歌服务器电源比传统多输出的服务器电源复杂度大大减少,且删除了很多不需要的器件?由于采用了成本更低的PCB板材,以及插件元件等,效率更高,灵活性更好,成本还得到一定的降低,也更简单可靠,同时支持电源回收重复利用,或者电子垃圾拆解。

     

图3 传统服务器电源内部结构      图4 谷歌服务器电源内部结构

图5是谷歌较早期服务器的典型照片,只有一个电源,电源风扇既做电源自身散热,还兼做服务器风道散热。其厚3.5英寸(2个机架U单位),两个处理器,两块硬盘,八个内存条,主板由技嘉制造。谷歌采用来自英特尔和AMD的x86处理器,谷歌还在自己的网络设备中采用了这种电池设计。从这些我们可以看出谷歌追求极致,为了效率无所不用其极,这就是谷歌不使用UPS电源的原因所在。当然UPS在效率提升上面还有很长的路要走,在可用性的前提下,效率的提高将更好地为广大企业造福。总之,谷歌愿意耗费较大的成本来为每个服务器模块安装电池,从而达到服务器的极度节能。这种工程也只有谷歌能够完成。

                

图5 谷歌早期服务器的典型内部结构         图6 谷歌服务器内置UPS的工作原理图_

图6是谷歌服务器内置UPS的工作原理图。当市电正常的时候(+微信关注网络世界),服务器电源输出约13V给主板供电。根据0.5欧姆的等效负载,估算其服务器的功耗约为13×13/0.5=338W。此时服务器电源不仅承担全部的服务器负载,还承担对电池进行充电的任务,使得电池始终处于饱和状态,以便下一次停电时电池有足够的输出能力。图6中电池的等效内阻Rbatt约为100毫欧,而Rcharger为电池充电的限流电阻,避免过大的充电电流对电池的损伤。举个例子,以电池放电的截止电压为9V估算,则充电电流不能超过(13-9)/20=200mA。限流电阻下面还有一个单向二极管,用于防止电池被反向充电损坏等。同时考虑二极管压降0.7V左右,因此基本可以控制服务器电源的输出电压基本高于电池两端电压约0.7V到1V左右。当然电池充满后就基本处于浮充状态,不再消耗能量,只有很小的漏电流产生的泄漏功率,因此实现了服务器内置UPS基本为99.99%的高效率。

当市电停电发生,交流输入检测电路快速判断到停电发生,13V的服务器电源输出出现电压跌落,当母线输出Vups触发到了Voff的欠压阈值,马上开通电池放电Vdischarge的驱动,背靠背的两个MOSFET开关被导通,从而开关530闭合电池马上放电,承担起全部负载,保证服务器主板持续供电。随着时间的推移,电池放电电压持续降低,在99%的情况下经过10多秒,甚至稍微更长些时间,柴油发电机能自动开启并正常投入使用,这个时候服务器内置UPS由柴油发电机供电而重新恢复13V输出,承担起所有服务器负载。电池不再放电,而是重新被充电,以保证有足够能量用于柴油发电机退时的再次放电。

当柴油发电机带载了一定时间,市电故障排除重新恢复供电时,柴油发电机先行退出。此时服务器内置小UPS再次放电,但放电只会持续ATS投切的几秒时间。然后市电重新来承担起全部的负载,UPS电池再次退出,并重新被充满,直到下一次停电发生。

实际上,从谷歌服务器的视频内,我们可以看到在某些案例中采用了汤浅公司的3.2Ah的铅酸电池,根据该公司产品的手册,放电电流约为12V/0.5欧姆=24A,相当于7.5C的放电电流情况下。如果以截至电压为10.5V估算,则电池放电时间还不到1分钟。因此谷歌服务器内置UPS的电池放电时间是很短的,如果可以有效控制,并能确保柴油发电机启动时间在半分钟以内,是可以保障业务的稳定持续运行。

总之,谷歌的服务器内置UPS方案是个数据中心节能应用的经典案例,它摒弃了传统低效率的集中式UPS供电,采用了市电直供的分布式小UPS供电,在大大提高系统供电效率的情况下,通过基本可控的软硬件设置来实现业务的持续性。即便某个小UPS出现故障,影响面也很小,某种意义上还减少了传统集中式UPS自身故障带来的大面积停电风险。除了服务器内置小UPS的设计,谷歌还从服务器电源、主板上VRM等供电路径上的各个单元严格控制能耗,在提升了能效的同时,还在标准化并减少系统复杂度、精简部件品种数量、大批量低成本采购、标准化安装/维护/替换、减少库存和人工成本、减少线缆的使用,并拆解回收电子垃圾,减少环境污染等方面都有充分考虑,非常值得国内同行学习。(更多内容详见: http://www.cnw.com.cn/P/5131)

[责任编辑:孙可 sun_ke@cnw.com.cn]