简谈CPU峰值性能怎么计算[转载]

CPU峰值性能就是CPU运算能⼒满打满算最最理想情况下的性能，这只有理论意义，实际性能要以软件实测为准。有⼈问寡⼈峰值性能怎么算，这⾥就很简单地说两句。搞计算化学的⼀般只关注浮点性能，所以这⾥只提峰值浮点性能。

峰值浮点性能=CPU核数CPU频率每周期执⾏的浮点操作数

时下普通的CPU的单精度(SP)浮点性能是双精度(DP)浮点性能的两倍。⽬前常见的⼏类CPU内核的每周期浮点操作数以及细节如下（引⾃⽹络，见stackoverflow/questions/15655835/flops-per-cycle-for-sandy-bridge-and-haswell-sse2-avx-avx2）

Intel Core 2 and Nehalem:

4 DP FLOPs/cycle: 2-wide SSE2 addition + 2-wide SSE2 multiplication

8 SP FLOPs/cycle: 4-wide SSE addition + 4-wide SSE multiplication

Intel Sandy Bridge/Ivy Bridge:

8 DP FLOPs/cycle: 4-wide AVX addition + 4-wide AVX multiplication

16 SP FLOPs/cycle: 8-wide AVX addition + 8-wide AVX multiplication

升频Intel Haswell:

16 DP FLOPs/cycle: two 4-wide FMA (fused multiply-add) instructions

32 SP FLOPs/cycle: two 8-wide FMA (fused multiply-add) instructions

AMD K10:

4 DP FLOPs/cycle: 2-wide SSE2 addition + 2-wide SSE2 multiplication

8 SP FLOPs/cycle: 4-wide SSE addition + 4-wide SSE multiplication

AMD Bulldozer/Piledriver/Steamroller, per module (two cores):

8 DP FLOPs/cycle: 4-wide FMA

16 SP FLOPs/cycle: 8-wide FMA

时下搞计算化学的⼈最常⽤的XEON E3/E5中，v3对应Haswell，v2对应Ivy Bridge，不带后缀的对应S

andy Bridge。更⽼的，⽐如XEON 5500系列对应Nehalem。如果不清楚，建议查阅笔者编纂的《硬件资料库》（pan.baidu/s/1hq7PLeG）

根据这些资料，可以容易地计算峰值浮点性能，⽐如E5-2690 v2，基本频率为3.0GHz（这⾥不考虑Turbo boost动态升频），有10个核，每个核每周期可以做8次双精度浮点运算或16次单精度浮点运算，因此：

单精度峰值浮点性能=3.01016=480 GFLOPs

双精度峰值浮点性能=3.0108=240 GFLOPs

这⾥FLOPs (FLoating-point Operations Per Second)是衡量浮点性能的常⽤单位，即每秒做的浮点运算次数。1GFLOPs代表每秒⼗亿次浮点运算。⽬前世界顶尖的⾼性能计算机(HPC)的浮点性能都以PFLOPs来计，1P=1000T=1000000G。

从上⾯列的数据中看似XEON v3 (Haswell)⽐v2的浮点性能⾼⼀倍，这被⼀些商家⽤来忽悠消费者。实际上，同频同核下，v3⽐v2性能提升很⼩。如果v3价格只⽐v2贵⼀点，那么可以买v3，但如果贵得很多，切勿被表⾯上看多⼀倍的峰值性能所冲昏了头脑。适当了解下不同内核以及指令集的特点对理解这个问题是有益的。为了⽅便，这⾥我们只考虑双精度浮点。

第⼀代奔腾⽀持的MMX、奔3开始⽀持的SSE（最后发展到SSE4/4A），以及从Sandy Bridge开始⽀持的AVX等等都是SIMD（单指令多数据）指令集，它允许⼀个指令同时对多个数据进⾏处理以达到很⼤的吞吐量。Sandy Bridge/Ivy Bridge⽀持的AVX指令集可以⼀次处理

256bit浮点指令，双精度浮点数长度为64bit，即通过AVX指令⼀次可以做四个双精度浮点运算。如前⾯给出的信息所⽰，Sandy Bridge/Ivy Bridge⼀个周期可以执⾏⼀次AVX浮点乘和⼀次AVX浮点加，也就是说⼀个周期可以做四个双精度浮点加和四个双精度浮点乘，故⽈每周期可以做8个双精度浮点运算。这只是理论最⼤值，实际上⽔分很⼤，因为前提是必须所处理的完全是AVX 256bit指令，但实际中是做不到的，能利⽤上AVX指令集的只是实际计算程序中的某些部分⽽已（这需要编译器和操作系统的⽀持。如果写的时候专为AVX来调整代码编写⽅式可以更好地利⽤AVX来达到更好的性能）。另外，不可能总是恰好要算的是⼀条加法指令和⼀条乘法指令，⽐如传来的只有⼀串浮点加指令，那么乘法运算单元就空闲了，浮点性能也就浪费了⼀半。所以，虽然我们从前⾯列的数据中看到Sandy Bridge/Ivy Bridge得益于AVX ⽽⽐Nehalem每周期能做的浮点运算次数⾼⼀倍，但这只是最理想的状况⽽已，⽽且这和实际表现出来的性能不是那么的密切。⼀般应⽤中前者⽐后者在同频同核数情况下性能⾼近⼀半，这主要还是因为CPU架构做了多⽅⾯改进带来的，具体说起来就⽐较复杂了，这⾥就不提了。可以说，如果所运⾏的程序对AVX优化较好，Sandy Bridge/Ivy Bridge表现的性能⽐Nehalem提升得会更多。

再来看XEON v3和v2的关系。Haswell相⽐Sandy Bridge/Ivy Bridge的⼀个主要改进是⽀持了AVX 2.0指令集，相⽐AVX有了⼀些改进，其中很关键的是⽀持了FMA3指令，这⾥FMA是Fused Multiply-Add（融合乘加）的缩写，FMA3是⼀种具体实现。原本，做result=a+(bc)需要先做⼀次乘法再做⼀次加法，⽽利⽤FMA指令可以在⼀个周期内做完这个运算，所以可以认为做⼀次FMA运算等于做两次常规浮点运算。如前⾯列出的信息所⽰，Haswell的每个内核⼀个周期可以处理两个FMA指令，每条指令包含4个双精度浮点，⼀次FMA浮点运算⼜能当两次普通浮点运算来计，因此每个核每周期内满打满算可以做24*2=16次双精度浮点操作。由于⽀持了FMA，表⾯上看XEON v3⽐v2浮点性能⾼了⼀倍，但这种说法实际上⽔分巨⼤：哪可能要做的总是乘加运算？⽐如传来的就是⼀条AVX浮点乘指令，此时v3虽然⽀持FMA却也派不上⽤场，v3和v2都需要⼀个周期来完成，即表现出的性能相等。所以说，如果有⼈说v3⽐v2性能提升⼀倍那纯粹是天⽅夜谭，除⾮跑的是专门炫耀Haswell的程序，⾥⾯的运算全都是乘加。根据实际测试来看，Haswell跑现有的程序也就⽐Ivy Bridge性能⾼不到10%，但这很难说是⽀持FMA的功劳。以后的程序可能会有⼀些针对FMA专门进⾏优化，或在编译时使⽤相应的优化选项（如ifort⾥⽤-fma）⽽使v3有更好的性能，但不要抱太⾼期待。所以前⾯提到，买服务器时如果v3⽐v2贵⼀点可接受，但贵得太多就算了。

再来说说为什么如今AMD CPU的浮点性能为什么如此之烂。从推⼟机架构开始，即前⾯列的Bulldozer/Piledriver/Steamroller这⼀类，AMD 就⽤了很糟糕的设计，两个核⼼作为⼀个模块，共⽤⼀个浮点单元，⼀个周期只能处理⼀次256bit FMA指令，⽽Haswell⼀个核就能同时处

理两条256bit FMA指令，也就是说，论峰值浮点性能，现今AMD的U四个核才顶Haswell⼀个核。不过实际没这么夸张，抛开那些很虚的峰值性能数据，要达到如今XEON v2或v3的N个核的实际性能，同频情况下，如今的Opteron必须要⽤>2N个核。如果程序的并⾏效率很低，那么Opteron实际效能简直惨不忍睹，不管怎么算都远不如XEON划得来。所以说，如今做计算化学买AMD的U只有后悔的份。AMD的U的核数⽐较坑⼈，N个核才有N/2个浮点单元（想来，当年AMD还⽆耻地说Intel的Pentium D是胶⽔粘的，有点⾃⼰打脸的意味），但是整数性能还说得过去，整数单元和核数是相同的，但搞计算化学的⼈才不稀罕整数性能呢。

最后再说⼀下GPU。从峰值性能上看，GPU⽐起CPU弱点在于频率低，不⽀持SIMD，但它的浮点性能之所以胜于CPU在于流处理器数⽬多。以nVidia的⾼端的GTX Titan black为例，基础频率是0.889GHz，有2880个单精度浮点单元和960个双精度浮点单元，每个浮点单元每周期能做⼀次FMA指令，因此

单精度峰值浮点性能：0.88928802=5120GFLOPs

双精度峰值浮点性能：0.8899602=1707GFLOPs

可见GTX Titan black峰值性能⽐前⾯举的E5-2690 v2的例⼦⾼了约⼀个数量级，但这⽔分太⼤，显然不能因为FMA就当成实际中有两倍处理能⼒，所以公平来说双精度浮点性能前者是后者4、5倍的样⼦。

GPU的单精度浮点性能的确很好，性价⽐远胜于CPU，但⼀定要注意⼤多数消费级GPU的双精度性能其实不咋地。GTX Titan black价格⽐起同样流处理数⽬的GTX 780Ti贵出⼀倍，在我来看贵的主要道理不是因为它是烧包级，⽽是双精度性能能达到单精度的1/3，⽽这个⽐例对于GTX 780Ti仅为1/24！GTX 780Ti的基准频率为0.876GHz，单精度性能和GTX Titan black基本⽆异，但双精度峰值性能才区区210GFLOPs⽽已，要不把FMA满打满算记⼊峰值性能计算公式，那么还明显不如E5-2690 v2呢。

PS：这篇⽂章观点有点意思，⼤家不妨看看《GPU运算即将退潮 CPU浮点性能⾰命》（an/cganself/founder/?p=2681）转⾃：bbs.keinsci/thread-786-1-1.html

本文发布于:2024-09-25 14:24:36，感谢您对本站的认可！

本文链接：https://www.17tex.com/tex/2/356405.html

上一篇：llc全桥谐振电路原理

下一篇：数字信号处理中的算法和应用

标签：性能浮点峰值精度实际

留言与评论（共有 0 条评论）