摘要: 高性能计算机已经让绿色计算的观念更加深入人心。但是,绿色计算是否能给你提供一个更快、更好、更便宜的高性能集群呢? 绿色已经成为了今年的热门词汇。用绿色的墨汁来打印你的小册子、在你的产品描述中加入绿色概念以及“更快地为绿色做好准备”就是很好的例子。但是,一旦牵扯...
高性能计算机已经让绿色计算的观念更加深入人心。但是,绿色计算是否能给你提供一个更快、更好、更便宜的高性能集群呢? 绿色已经成为了今年的热门词汇。用绿色的墨汁来打印你的小册子、在你的产品描述中加入绿色概念以及“更快地为绿色做好准备”就是很好的例子。但是,一旦牵扯到高性能计 算机(HPC),就没有那么简单了。实际上,在一个性能至上的市场中,其它的任何因素看起来都居于次要位置。直到数据中心的电费帐单到你眼前时,你才领悟到其它因素的 重要性。为了获得更好性能的数据中心,也就意味着需要更多的空间、电能,散热就变得更加难了。
绿色HPC是真正地优化过的HPC。除非你不考虑你的预算,否则,性价比通常是用于衡量不同硬件解决方案的标尺。尽管计算机的性能可以很容易地衡量,但是价格组成部分 却有一些模糊。通常情况下,价格组件包括基本的硬件采购成本,但是忽略了操作费用。在当前火热的竞争激烈的服务器市场中,这一分析很少被人们所注意到。下面的这个例子 就可以很好地说明这个问题。
目前,1U双槽集群节点需要大约300瓦的电能。散热和电源传输中的损失可能会让这个数字翻一倍,也就是600瓦。因此,通常情况下,一年一个单一的集群节点会需要5 256千瓦时的电能。以0.1美元/千瓦时的成本来计算,一个单一集群节点每年的电能和散热费用大约是526美元。
而当你把整个集群都考虑进去的话,这一数字可能会增加到你难以置信的程度。考虑一个当前市场上典型的集群价格,一个节点可能需要花费3500美元(这包括机架、交换机 等等)。如果使用标准的四核技术,一个节点拥有两个处理器共八个核。使用我们的平均节点价格,一个标准的128节点的集群(带有256个处理器和1028个核)就需要 耗费448000美元。基于上述的猜想,每年的电能和散热预算就需要67300美元。那么如果以三年为一个周期,那么所需要的花费就是201900美元,大概占到整个 系统的45%。
计算价格可能由于市场条件和地理位置有所变化,但上述的分析也表明,三年数据中心的电能和散热花费也接近于整个集群硬件的40-50%的成本。
因此,相比于性价比来说,更加确切的衡量标准应当是架构/操作比。忽略掉这些成本就会导致一个变形的、理想的性价比衡量标准。操作成本通常反映在所有权成本(TCO) 标准中,但是高性能计算机则更期望使用性能标准。
绿色就是性能
基于上述的分析,任何减少电能和散热成本的估计都会自动地减少价格/性能比率(越低越好)。这个结论是相当让人感到震惊的,因为绿色计算通常和低电能(例如低时钟频率 )系统联系在一起。在高性能计算机中,绿色则意味着变慢。它同时意味着更具效率。在本篇文章的余下部分,我们来看一下不同的针对HPC系统提高效率的办法以及一些绿色 HPC的新思路。
让服务器更加绿色
由于很多当前的机架服务器都使用相同的处理器、内存以及硬盘,我们就暂且不讨论这些组成部分了。换句话说,我们使用那些市场提供的以及厂商所作的可以让这些组件更具效 率的硬件。通过使用新的处理器,有一些新的节能特性可用;集群也展示了一个独特的环境,通过任务调度来更好地管理(参考以下部分)。
电源供应
如果你使用标准的机架式服务器,那么你可以控制的部分就是电源供应。确认你当前使用了带有电源利用率修正(PFC)功能的电源。一个超过0.8的带有PFC的电源是更 具效率的。不幸地是,一个没有修正的电源,它的电源使用率因子可能是0.70-0.75,这样就会浪费电能。一个好的PFC电源可以得到0.95-0.99的电源使用 率因子。除了PFC,电源的效率也不能不提到。在过去,一个典型的电源可能效率只有60-70%,这也就意味着30-40%的电能都以热能的形式浪费了。而好的电源可 以达到80%以上的效率。
平衡你的调度
就像上面所说的那样,大多数的厂商都在采用更具效率的供电策略。比如,Intel和AMD都在很多的处理器上提供了动态频率控制方法,通过使用Intel的Speed Step和AMD的Cool’n Quiet特性。使用了这些特性,就可以动态地改变一个处理器的时钟频率,这主要是通过在一个给定节点上修改/sys/device s/system/cpu/cpu_/cpufreq/文件系统来完成。一个处于闲置状态的处理器应当在它不使用时降低频率(通过cpufreq- selector命令来检测)。除此之外,如果你在你的节点上使用硬盘,那么当前的硬盘都提供绿色节点。使用命令hdparm –S就可以设置一个计数器,也就可以让 硬盘进入到低电能模式。你可能需要调整内核将磁盘缓存写入到硬盘的间隔(设置/proc/sys/vm/dirty_writeback_centisecs)。Sy slog守护进程可能需要被修改,它可以直接写入到磁盘上。可以通过在/etc/syslog.conf文件中的每一个条目上附加一个“-”符号来使用缓存。
最具效率地控制上述电源节省特性的办法就是通过调度。基本上,任务调度可以知道每一个节点的状态。当没有任务指派到节点上以及在性能状态下一个任务正在运行,书写一个 前工作脚本和后工作脚本以让CPU和硬盘进入到一个低电能状态并不是一个很难的事情。改变这些状态并不会真正招致实际的负担,并且这个对于调度来讲也是微乎其微的。
一个更加节能的办法就是让所有没有使用的节点完全断电。Sun Grid Engine以及SLURM都有一些计划来提供这种能力。Moab和AFS也具有相似的特性 。这种能力在那些无磁盘的节点上尤其有用,因为快速的启动和节点供应在网络上完成。一般情况下,在电源提供后,60秒之内一个节点就可以操作了。
另外一个办法就是使用调度来控制物理任务的放置。思想就是放置/移走任务到机房相对温度低的地方,惠普公司写的一篇文章中给出了这种方法的一些结论。
让机架更加绿色
更好的机架映射对于集群的绿色也是一个好的办法。典型的1U服务器就有至少10-12个风扇以及一个供电系统。基于刀片的系统可以让一些设计改变并且在节点间共享风扇的供电。如果你考虑一下,带有1U服务器的一个典型机架具有42个1.7x18x26英尺的通道(通风道),它们中的每一个必需保持充足的空气流来散热整个服务器。通过巩固一定量的风扇和供电,大量的电能都可以节省下来。一个很好的绿色机架的例子就是IBM的新iDataPlex。除此之外,还有一些小的子机架系统(适合于标准机架的刀片系统)提供了绿色的特性。这其中的例子包括Supermicro Office机架、IBM BladeCenter S-Series以及Dell的M-Series。
另一个由Rackable Systems公司引领的技术就是基于DC的服务器。在这个设计中,每一个服务器和存储系统都配备了一个高效率的48VDC电源,取代原来 的标准交流供电。每一个机架柜都可以有效地将标准的交流电(AC)转化为直流电(DC),在这个机架中。这种在节点上去掉AC到DC的转换就意味着具有更高的电源效率 (92%)以及从节点上更少的散热需要。