专业软件考验 CPU/GPU谁是通用计算主角

吸血大魔王 · 发表于 2011-2-12 11:35:38

● GPU可编程性进军CPU领地    早在2003年业界就已经开始讨论CPU与GPU谁主导系统控制权等问题，而现在我们看到GPU性能疯狂增长，所能完成的工作在可编程性提升的情况下也越来越广，CPU在通用方面依然势不可当，同时并行度增加让CPU也开始拥有更高的浮点和线程优势。CPU与GPU的碰撞在今天已经到了不可避免的地步，预算有限的情况下，用户应该如何根据自己的需求寻找最适合自己的硬件？
   以下是两个逻辑上完全合理的推断以及结论：
   结论1：1978年Intel 8086中央处理器发布，标志着X86架构CPU走上历史舞台。在此后的30多年中，CPU已经吞并了无数计算单元，低端GPU目前已经被CPU集成，难道系统控制权就要这样交给CPU，GPU走完十几年的发展路径就要走向绝路吗？
   结论2：GPU可编程概念从Geforce2时代被发掘并在2005年全面提升日程，NVIDIA和AMD都在全力提升GPU的Shader复杂程度和晶体管比重，GPU不再是一个简单的DSP单元而拥有了更多自主权。GPU可怕的并行计算能力将把CPU推向深渊吗？

   我们所做的测试在CPU和GPU计算方面都有偏向：
   MediaShow转码综合测试可以通过优化，发挥GPU并行计算的实力让流处理器为视频转码所用，当然优秀的CPU也会获得不错的效果；
   Folding@home蛋白质折叠已经是显卡玩家熟知的老项目了，在上个世纪它一直是由CPU来驱动运行的，所获得的研究成果为人类的医学事业做出重要贡献；
   Musemage图片处理软件只能在独立显卡的机器上才能被运行，因为它是基于GLSL底层编程语言所打造的高效图像处理软件，无论是NVIDIA还是AMD GPU核心都可以在这里找到虐待Intel顶级处理器的快感；
   GPC Benchmark综合理论测试是由中国专家自主提出的基准测试软件，涵盖存储、计算、吞吐等多个层面，可以对基于Open CL的硬件做详细性能测试，成绩全面且不偏不倚，不同的测试结果适合用户参考；
   今天的测试我们使用了4款颇具特色的专业软件，它们有纯理论测试软件，也有理论与实际相结合的测试软件，当然也少不了实际应用测试。我们希望通过这次测试找到CPU与GPU和谐共生的理由，也希望读者能够体会CPU与GPU的架构差异之处，最后找到适合自己的搭配，让自己手中的预算发挥出最大效用。
   在测试开始之前让我们回顾近期显卡市场上发生的一些重要事件，同时看看它们的诞生对整个GPU与CPU市场带来哪些影响。

吸血大魔王 · 发表于 2011-2-12 11:36:03

● 新Fermi架构发布激荡GPU市场    2010年时Fermi架构推出元年，这标志着NVIDIA开始大举推进GPU通用并行计算。而近期Geforce GTX560 Ti发布则意味着GF104/114芯片成为用户买得起的新Fermi架构，GF104/114芯片通过巧妙的资源分配让GPU更灵活且晶体管开销下降，新Fermi架构正在成为用户关注的热点。
   从产品更替角度上讲，如果说GTX580补全了GTX480的遗憾，那么GTX560 Ti则大幅度提升了GTX460的性能并带给用户更多选择。厂商在设计GTX500系列产品的过程中开销普遍降低，用户认知度也在GTX400系列产品中获得了有效提升，GTX500时代获得继续积累。
   GTX580完全补齐了GTX480原定的512个流处理器，GTX560 Ti与GTX460相比提升也一样不小，在补全384个流处理器和8个TMU纹理单元之后，GTX560Ti选择了继续提升频率，我们看到相对与GTX460核心和显存频率分别提升了21%和11%，而综合浮点吞吐能力则提升了38%。

GF100/110与GF104/114 SM对比

要了解GTX560 Ti的真正含义，需要从多个角度着手分析，首先是NVIDIA在Fermi架构上所做的妥协与删减。GTX560 Ti所使用的GF114芯片和GF104实际上没有架构区别，它们都是小型的Fermi架构，或者说是适合图形消费市场的。因为GF104/114晶体管数量所限，减少了SP数量，降低了运算并行度，但是为每个SP配备了更多的纹理和发射端等资源，特别是纹理单元在SM中的翻倍让GPU更加适应当前的图形环境。

GF114核心架构图

如果从市场层面分析，GTX560 Ti正在谋求更大程度的市场占有率和为有效的市场控制力。因为芯片的可制造性提升之后，厂商设计制造显卡的开销会变得更小，或者说投入相同精力可以设计出更好的产品，这样可以促进显卡市场的多样化，保护芯片厂商、显卡厂商、渠道商利润。GTX560 Ti的发布正是NVIDIA在市场培育方面结出的硕果。

显卡市场需要优秀芯片繁荣

最终回到消费者的观点，GTX460在发布半年之后带来无数震撼和欣喜，当我们用1299元就能得到超值的Fermi产品后，2000元市场成为暂时的空挡，GTX560 Ti作为一款额定性能和产品能力更强的GPU在经过厂商包装之后正在成为消费者最为期待的热点。NVIDIA快速完成产品线布局在一定程度上也帮助消费者获得了更多选择。

吸血大魔王 · 发表于 2011-2-12 11:36:30

● HD6000系列架构思路多变 2010年10月22日，AMD在对手推出第一代DirectX 11产品半年后，推出了第二代DirectX 11产品——Radeon HD 6800系列。就在两个月后12月15日，AMD高调推出HD6900系列，这不仅仅是简单规格升级后的产物，作为第二代DirectX 11旗舰产品，其是AMD经过Radeon HD 5000系列后潜心研发改革而来的新作，与Radeon HD 6800系列及Radeon HD 5000系列核心架构上有着本质的区别。
HD6000系列的发布让所有关注显卡的消费者眼前一亮，毕竟在2010年底就推出第二代DirectX 11产品对AMD来说是非常不容易的，而且HD6000通过打出了AMD多变的产品设计思路，消费者和显卡厂商还是愿意接受这种改变。

HD6800家族正式登场

   HD6800的发布代表了AMD再次用较小的核心架构改动再次撬动了GPU关键性能的提升，HD6000发布之后我们看到了一颗核心面积更小的芯片融聚了更高的浮点运算能力，我们看到通过改善线程控制能力流处理器和特殊功能运作效率进一步提升，当然这一切的背后，还有AMD利用TSMC改进后的40nm CMP碱洗工艺提升整体频率带来的线性性能提升。
   本次Barts在核心架构上的变化主要有三点：
   1、Tessellator数量仍为1组，但是为增强型的Tessllator Gen7。
   2、线程控制器由Cypress的一组变为Barts现在的两组。
   3、UVD引擎升级至第三代，提供了更多功能及格式的图形核心计算模式。
   其中线程控制器分为两组，是HD6800系列Barts核心性能提升的主要因素，两组线程控制器同时工作能够更有效的发挥流处理器的并行计算能力。这一改革让HD6000拥有更丰富的指令缓存和发射端资源，虽然两个UTDP单元还是采用抢占式资源分配模式，但是面对庞大的流处理器阵列时效果会比一个UTDP单元好很多。

双图形引擎

HD6900使用了双图形引擎设计，不言而喻Tessellation单元将会由此设计倍增，从而更好的适应目前DirectX 11应用。当然加倍的不仅仅是Tessellation单元，在顶点、几何等计算中也会相对老核心架构有双倍提升。

全新的VLIW4架构

HD6900所使用的Cayman核心相比其他AMD DirectX 11核心有了本质的架构变化，由原来的VLIW5流处理器微架构改为VLIW4流处理器微架构，这样的设计结构更符合当前GPU计算应用，从而提高GPU运算效率。当然在其他方面Cayman也有了很大的改变，总之AMD终于改变了延续自HD2000时代以来的GPU核心流处理器架构，开始了新的尝试。

吸血大魔王 · 发表于 2011-2-12 11:36:53

● I7家族借助SNB不断升级 Core微架构终结了AMD自从2003年开始在64位处理器方面的优势，也代表了Intel放弃NetBurst微架构一味冲击频率的发展路线，回到了Pentium时代效率与频率兼得的总体思路。而SNB的出现则代表了Intel坚定发展高性能CPU的核心思路，同时寄希望于让CPU来整合更多单元，特别是GPU单元。
除了我们熟知的传统GPU之外，Intel也一直没有放弃GPU的研发，无论是激进的Larrabee多核心处理器产品还是GMA系列高性能集成显卡都是市场关注的焦点。Intel依靠其CPU和芯片组的市场占有率，目前仍是全球最大的显卡生产商。

全球显卡市场占有率简表

根据权威第三方机构的数据，Intel在全球显卡市场上的份额从上年度的 51.1%，增加至52.5%，排名第二的为AMD，市场份额从上年度的21.7%，增加至24.7%，Nvidia排名第三，市场份额从上年度的 26.5%下滑至22.5%。

第二代英特尔智能酷睿处理器核心架构图

我们可以看到与上代产品相比，SNB的核芯显卡芯片与处理器完全集成在了一起，而内存控制器也进一步进行了集成。在SNB中，三级缓存依然延续。其中L1缓存的设计与酷睿微架构相同，而L2缓存则采用超低延迟的设计，而L3缓存也依然采用的是共享式设计。英特尔第二代英智能酷睿处理器的酷睿i3、i5、i7依然可以通过对超线程技术的支持与否而划分定位。虽然处理器型号不同不过架构基本类似。

核芯显卡架构解析

　　上图中可编程着色硬件被称为EU，包含着色器、核心、执行单元等，可以从多个线程双发射时取指令。内部ISA映射和绝大多数DX10 API指令一一对应，架构很像CISC，结果就是有效扩大了EU的宽度，IPC也显著提升。抽象数学运算由EU内的硬件负责，性能得以同步提高。Intel表示，正弦(sine)、余弦(cosine)操作的速度比现在的HD Graphics提升了几个数量级。

　　英特尔此前的图形架构中，寄存器文件都是即时重新分配的。如果一个线程需要的寄存器较少，剩余寄存器jiuihui分配给其他线程。这样虽能节省核心面积，但也会限制性能，很多时候线程可能会面临没有寄存器可用的尴尬。
芯片组集成时代，每个线程平均64个寄存器，Westmere时代的HD Graphics提高到平均80个，SNB则每个线程固定为120个。SNB里每个EU的指令吞吐量都比现在的HD Graphics增加了一倍。

吸血大魔王 · 发表于 2011-2-12 11:37:15

● 测试软件选取与介绍    目前越来越多的软件已经开始涉及到GPU加速，甚至出现了完全依赖GPU加速的软件，它们多出现在图形处理领域、分子动力学计算、视频编码解码等计算量大且数据结构规范的应用中。不过当GPU遇到条件分支数量较高、并行度较差的程序时自然难以应对，所以CPU在系统中还是起到不可替代的作用。
   本次我们选择了4款理论与实际并重的测试软件，下面就让我们依次了解它们的用途与特性，这样后文的测试数据对读者来说将更容易理解。
   ● MediaShow Espresso
   Cyberlink公司的MediaShow Espresso软件可以把视频源重新编码至iPhone、iTouch以及PSP等个人终端手持娱乐设备所支持的格式，当然你也可以自定义自己所需要的编码格式和解析度。

MediaShow Espresso软件正在识别GPU加速特性

   MediaShow Espresso软件是第一款同时支持CUDA与Stream加速的视频转换软件，除此之外它还对Intel Core i7处理器的超线程及SSE4指令集做了优化，因此无论纯CPU转码还是GPU加速，其速度比传统软件都要快。在实际使用中无论是界面还是选择的丰富程度都能帮助用户将系统的特性完全发挥出来。
● Folding@home蛋白质折叠
   Folding@home所研究的是人类最基本的特定致病过程中蛋白质分子的折叠运动，这是一个开放性的公益性质分布式计算项目，旨在为人类医学和健康事业做出自己的一份贡献。项目的核心原理在于求解任务目标分子中每一个原子在边界条件限制下由肽键和长程力等作用所导致的运动方程，进而达到实现模拟任务目标分子折叠运动的目的。
   Folding@home的客户端利用了经修改的TINKER、GROMACS、AMBER及CPMD这四款分子模拟程式进行运算，并会在许可的情况下作出优化，以把运算速度加快。这四款模拟程式也被修改成多个不同版本，供多款作业平台使用。Folding@Home中最主要的核心是GROMACS，这是一个经过特殊许可的非GPL版本的GROMACS作为客户端。

在分子动力学领域广泛使用的GROMACS引擎

● Musemage图片处理软件

Musemage图形处理是由平行视野（Paraken）开发的，这是一家国内的公司，这家公司拥有很强的GPU编程基础和GPU编程专业人才，因此本次在NVIDIA的帮助下，平行视野公司使用最快的速度开发出了一款基于GPU通用计算的图像处理程序——Musemage图像处理软件。这款软件基于GLSL语言编写，能够将GPU抽象为通用处理器来加速图像处理。

全面基于GPU的Musemage图像处理软件

   近日在NVIDIA先进的GPU技术支持下，Paraken公司发布了他们的全新产品——Musemage图像处理软件。Musemage颠覆了以往以CPU进行图像处理计算的传统，充分利用GPU进行图像处理加速，大大提高了复杂图像处理的速度。这款软件最大的意义在于这是全球首个实现完全采用GPU处理流程加速图片软件。

   ● GPC Benchmark综合理论测试
   在Open CL行业有很多基准测试软件，不过它们虽然保持了专业却没有做到全面彻底，而国内的几位行业专家却通过统一测试项目和调用NVIDIA和ATI的SDK等方式设计出一款小巧方便的Open CL接口基准测试软件，目前这款软件已经被一些专业媒体测试广泛使用，中关村在线也已经多次使用这款软件来解析不同架构的芯片计算特性。

GPCBenchMarkOCL软件界面

与目前流行的一些OpenCL、DirectCompute通用计算测试程序的不同在于，目前这些测试程序测试项目过于单一，基本上就是某一两种算法的性能测试，甚至干脆就是理论峰值计算性能的测试。而GPCBenchMarkOCL软件可以进行带有针对性的多个项目的具体测试，对运算和吞吐各有侧重。

吸血大魔王 · 发表于 2011-2-12 11:37:51

● 性能测试的硬件、软件平台状况

　　● 测试系统硬件环境

　　性能测试使用的硬件平台由Intel Core i7-870 3.5GHz、ASUS P7P55D Deluxe主板和2GB*2双通道DDR3-1600内存构成。细节及软件环境设定见下表：

测试平台硬件
中央处理器	Intel Core i7-870 OC3.5GHz
	（4核 / 超线程 / 133MHz*25 / 8MB共享缓存）
散热器	Thermalright Ultra-120 eXtreme
	（单个120mm*25mm风扇 / 1600RPM）
内存模组	Apacer 猎豹二代双通道套装/PC3-12800
	（SPD:1757 9-9-9-24-1T）
主板	GIGABYTE GA-P55-UD4
	（Intel P55 + ICH10R Chipset）

显示卡
	NVIDIA 产品
	GeForce GTX 560 Ti 1024MB
	（GF104 / 1024MB / 核心:823MHz / Shader:1646Mhz / 显存:4008 Mhz）
	AMD 产品
	Radeon HD 6950
	（Cayman / 2048MB / 核心:800MHz / Shader:800Mhz / 显存:5000 Mhz）
	Radeon HD 5870
	（RV870 / 1024MB / 核心:850MHz / Shader:850MHz / 显存:4800MHz）
硬盘	Hitachi 1T
硬盘	（1TB / 7200RPM / 16M缓存 / 50GB NTFS系统分区）
电源供应器	AcBel R8 ATX-700CA-AB8FB
电源供应器	（ATX12V 2.0 / 700W）
显示器	DELL UltraSharp 3008WFP
显示器	（30英寸LCD / 2560*1600分辨率）

技嘉P55-UD4 GIGABYTE GA-P55-UD4

Apacer 猎豹二代双通道套装/PC3-12800

AcBel R8 ATX-700CA-AB8FB

Thermalright Ultra-120 eXtreme

　　我们的硬件评测使用的内存模组由宇瞻（Apacer）中国区总代理佳明国际提供，电源供应器、CPU散热器由华硕（ASUS）玩家国度官方店、利民（Thermalright）的北京总代理，COOLIFE玩家国度俱乐部提供。

　　● 测试系统的软件环境

操作系统及驱动
操作系统
	Microsoft Windows 7 Ultimate RTM
	（中文版 / 版本号7600）
主板芯片组驱动	Intel Chipset Device Software for Win7
主板芯片组驱动	（WHQL / 版本号 9.1.1.1125）
显卡驱动
	AMD Catalyst for Win7
	（WHQL / 版本号 10.12）
	NVIDIA Forceware for Win7
	（Beta / 版本号 266.56）
桌面环境	*25601600_32bit 60Hz**

测试平台软件
3D游戏测试项目
	GPU应用测试
		MediaShow Espresso
		Cyberlink / 版本号 6.5.1299
		Musemage
		Paraken / 版本号1.6.00
	GPU基准性能测试
		GPCBenchMarkOCL
		HPC Tech / 版本号1.1


辅助测试软件	GPU通用计算测试	Folding@home分布式计算项目
		GPU3客户端任务10632
	Fraps
	beepa / 版本号 3.2.3

　　各类合成测试软件和直接测速软件都用得分来衡量性能，数值越高越好，以时间计算的几款测试软件则是用时越少越好。

吸血大魔王 · 发表于 2011-2-12 11:38:16

● MediaShow转码综合测试
Cyberlink在业界一直保持活跃并且知名度不断提升，不久前它推出了MediaShow Espresso。和之前大家熟悉的MediaShow(魅力四射)是一款视频编辑软件不同，我们直接下载安装MediaShow Espresso才是本次视频转换软件。

我们导入了一个1.62GB的MPEG2 TS视频，然后选择“媒体播放器”-“Microsoft”，选择“启用硬件编码解码”。需要注意的是如果禁用硬件（GPU）编解码，则所有转换压力交给CPU处理，启用之后部分压力交给CPU，GPU也没有完全进行加速，这是本次测试的一个遗憾。

本次测试同时发现了一个重要问题就是MediaShow Espresso对CPU指令集和线程数量的优化程度之高带来了整体执行效率的大幅度提升。所以高端4核心8线程CPU几乎可以击败GPU，而GPU加速只是降低了CPU的占用率，在最终执行速度方面中高端显卡不及顶级CPU性能好。

当然本项测试也得出一个结论，那就是GPU可以明显帮助中端CPU进行并行计算，E5300处理器如果搭配一款中端显卡一定会在转码过程中体会到明显的速度提升。

吸血大魔王 · 发表于 2011-2-12 11:38:40

● Folding@home蛋白质折叠　　Folding@home是一个研究蛋白质折叠，误折，聚合及由此引起的相关疾病的分布式计算项目。我们使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程，并指引我们近期对由折叠引起的疾病的一系列研究，找到相关疾病的发病原因和治疗方法。
　　Folding@home能了解蛋白质折叠、误折以及相关的疾病。目前进行中的研究有：癌症、阿兹海默症（老年失智症）、亨廷顿病、成骨不全症、帕金森氏症、核糖体与抗生素。

GTX560 Ti显卡运行Folding@Home项目

该项目在中国拥有约2000多名参与者，其中最强大的China Folding@Home Power（Folding@Home中国力量，团队编号3213）团队已经拥有2585人，最近活跃用户200人以上，目前贡献计算量排名世界第33位，团队整体运算能力约为80到100TFLOPS。

Folding@home分布式计算项目偏重实际运算环境，这项测试是科学实用项目Folding@home项目，该项目使用了CUDA或者Stream加速的Gromacs引擎，NVIDIA的GPU架构由于流处理器设计原因，非常适合这种充满了大量跳转嵌套分支等指令的应用环境，我们的测试得到了非常理想的运算速度。该项目目前没有提供对于AMD HD5000-HD6000显卡的支持，所以我们只能让AMD显卡运行在兼容模式下。

在本项测试中，CPU出人意料地取得了大幅度领先，原因是4核心8线程的高端CPU拥有GPU无法比拟的分支预测能力，所以在Gromacs引擎环境下表现明显强于GPU，当然斯坦福大学对每个任务包的分值定义也决定了CPU在这个项目中的优势。本次CPU所运行的SMP2程序正说明了含有奖励分的CPU在这项计算中拥有远胜GPU的实力，我们以后将向大家做详细说明，CPU所计算的任务段正是驱动整个项目前进的重要动力。

吸血大魔王 · 发表于 2011-2-12 11:39:05

● Musemage图片处理软件 由于界面设计干净简洁而核心执行效率极高，Musemage可以说是最近非常火的图像处理软件。这款软件具备在很多GPU玩家看来了Photoshop的很多高级功能，也有堪比Fireworks的使用感受。而且基于GLSL底层编程让这款软件可以同时支持AMD和NVIDIA显卡，更多使用GPU的用户将享受到GPU加速带来的乐趣。

在本次测试中我们使用了一张5184*3456像素的由佳能550D拍摄的照片，并对此做了强度为10、旋转模糊的径向模糊操作。CPU方面我们则使用Photoshop软件执行同样操作并记录时间。

本项测试中HD6950显卡拥有强大的流处理器优势，因此获得非常理想的测试成绩，GTX560 Ti也明显超越了多核心处理器的表现，相信在更多复杂图片处理应用中GPU核心将会发挥出更强的效能。传统的奔腾双核处理器E5300则表现羸弱，处理如此大像素的图片需要将近5秒才能执行一个滤镜操作。

吸血大魔王 · 发表于 2011-2-12 11:39:41

● GPCBenchMark整体与子项得分

首款国人开发的支持GPU的OpenCL通用计算测试程序OpenCL General Purpose Computing Benchmark (简称GPCBenchMarkOCL)是由国内几名高性能计算从业人员和爱好者合作编写的，目的是为了评估在不同的OpenCL平台上一些基本算法和应用的性能。

GPCBenchMarkOCL软件界面

与目前流行的一些OpenCL、DirectCompute通用计算测试程序的不同在于，目前这些测试程序测试项目过于单一，基本上就是某一两种算法的性能测试，甚至干脆就是理论峰值计算性能的测试。而GPCBenchMarkOCL软件可以进行带有针对性的多个项目的具体测试，对运算和吞吐各有侧重。

   在这项测试中CPU再也无法压制GPU的综合表现，基于开放性Open CL协议的GPU基准测试中CPU吃尽了苦头。特别是在体现吞吐能力的浮点运算中，GPU表现大放异彩远远领先CPU，而在常用数学领域CPU落后幅度没有那么大，证明了CPU架构在条件分支处理方面具备绝对优势，否则不可能在处理器数量相差悬殊的情况下没有被GPU远远甩在身后。

测试总结：
   本次测试涵盖了4个常用的理论与实际测试项目，它们分别对CPU和GPU架构有很强的贴合度，所以4项测试成绩各异。在未来我们将进行更为深入全面的测试，无论是软件还是硬件选择方面都将再上一个台阶，读者可以更好的体会不同芯片架构之间的差异。
   在我们初期预定的测试结果中，视频转码是GPU长项但是本次所选用的MediaShow Espresso软件明显对多核心CPU优化更好，GPU只是辅助加速。Folding@home项目的测试结果也出乎意料，因为自从ATI宣布GPU支持该项目之后，GPU一直处于长期领先态势，然而项目方显然更希望多种架构并行发展，具体细节是让CPU去拆解蛋白质来组织整个项目的运作，所以这个项目中多核心CPU表现远胜GPU。
   通过本次测试我们深刻感觉到，在高性能计算领域，测试标准制定之艰难和软件优化之落后问题非常严重，只有合理的测试体系和统一的测试环境才能让用户看得更明白，更为轻松地选择适合自己的产品。