重归正途迎未来 AMD全新GPU构架深度解析

吸血大魔王 · 发表于 2011-6-23 12:05:19

● 震惊世界的Graphics Core Next　　　　2011年6月15日，AMD在AMD Fusion开发者峰会上向与会的700多名开发者和PC业界高管们透露了其全新GPU架构的诸多细节，由于缺乏代号，因此该构架暂时被称作Graphics Core Next。

　　AMD下一步的目标是发展“针对图形、计算双重优化的统一可扩展GPU”，“一套面向吞吐量的大规模多线程计算单元架构”，包括多任务多引擎架构、计算单元架构、多级读写缓存架构。

AMD Graphics Core Next

　　尽管新构架的路线图、发布规划、规格参数、功能特性等一概欠奉，但Graphics Core Next的出现依旧瞬间吸引了全世界所有的目光，因为——你还记得AMD上一次推出具有颠覆性的全新构架，是什么时候的事情吗？

吸血大魔王 · 发表于 2011-6-23 12:05:59

● R600的前世今生　　　　如果我没记错的话，上一次AMD发布与前代产品完全不同的新构架，已经是近5年前的事了。
　　2007年5月，AMD收购ATI之后推出的第一款DirectX 10 GPU—R600正式发布了。R600由一套几何处理单元，独立的线程仲裁器UTDP，与仲裁机构相连的SPU和TMU单元，以及完整的后端所组成。整个构架以ringbus换装总线进行连接。与竞争对手G80相比，R600的结构可以说是完全不同的两种设计思路。他的运算部分采用4个非全功能1D ALU和1个全功能4D ALU以VLIW的形式打包组成一个VLIW core。5个ALU共享2套发射端口资源，全部64个VLIW core共享8K的GDS，也就是NVIDIA方面的shared memory。

R600构架

　　R600构架的目的或者说初衷之一，就是通过ATI长久以来对图形编程业界的影响力，将自己认为更加合适的追求吞吐和ILP性能的保守的编程模式推广下去。压迫程序员并迫使其遵从由ATI制定的被认为是适宜的编程方法以及API转换路线。当时的实践证明，这一尝试是失败的。

RV770构架

　　在经历了R600系列的失败之后，AMD通过RV670的tick过程修正为R600构架去除了大量的低效率的晶体管，如过于臃肿的MC部分以及缓慢的ringbus总线。这些举措都为RV770节约了大量的晶体管资源。利用这些晶体管资源，RV770成功的将运算资源提升至R600的250%，但其构架本身并没有明显的变化。

RV870构架

　　而接下来的RV870中，AMD仅为其配备了合乎DirectX 11要求的寄存器资源，改进了UTDP对多线程的支持，在前端的几何单元中插入了一组TS单元，同时将运算单元中的GDS提升到了64K。除此之外，我们仅能见到进一步放大的VLIW core规模和其他配套的纹理资源及后端资源。各资源的整体比例较之RV770并未发生本质性的改变，VLIW core的操作管理方式及周边资源密度也未见任何实质性的变化。

Cayman构架

　　到Cayman构架为止，R600这个构架已经被AMD反复修改了不知道多少遍，虽然Cayman构架对R600进行了历史上最大的一次改动，4D VLIW以及双几何引擎的加入让Cayman构架获得了R600系列优于RV870的DX11性能，但其最核心的通过VLIW提升吞吐能力并由简单暴力的单元扩张换取性能的做法，并未发生本质变化，这种做法在漫长的历史时期里都发挥着重要的作用。
　　现在看来，Graphics Core Next的出现，标志着R600这个颇为长寿的构架体系，终于到了垂垂暮年，行将替换了。

吸血大魔王 · 发表于 2011-6-23 12:07:01

● 全新构架新在哪里　　AMD本次发布的全新构架究竟新在哪里呢？下面不妨让我们丢开那些构架图，直接归纳总结一下此次新构架的特点。

Graphics Core Next添加的Scalar单元简介

　　1、取消VLIW吞吐，代之以常规SIMD方式。
　　2、添加完整的多级Unifield Cache体系，cache体系面向全部指令和数据开放，同时取消独立的Tex Cache。
　　3、强化原子操作。
　　4、构架基于并行Compute Unit结构，强化CU间以及基于线程块级的乱序执行能力。
　　5、改进ALU团簇结构，新构架将采用4组16 wide vector ALU捆绑的形式。
　　6、ALU团簇外添加全新的Scalar Unit。
　　7、加入统一定址
　　8、添加对ECC内存的支持。
　　……

Graphics Core Next向量单元简介

　　本次AMD未来构架的改进可谓天翻地覆，与最近的Cayman构架相比，新构架不仅抛弃了R600以来一直维持的VLIW体系，更在core以及uncore两端同时做出了大量前所未有的改进。对于这个构架，它的最核心关键词只有两个——学习，借鉴。下面，就让我们从里到外的仔细审视这一全新构架，并讨论一下它的意义吧。

吸血大魔王 · 发表于 2011-6-23 12:07:27

　● 不再拘泥于关联性　　　本次Graphics Core Next最引人瞩目的改进，就是AMD放弃了自R600以来一直坚持的VLIW打包吞吐模式。这个改动可以说彻底撼动了AMD GPU构架发展的基础。放弃VLIW不仅意味着GPU领域超长指令与普通指令分庭抗礼时代的终结，普通SIMD吞吐模式统一江湖，更标志着AMD正式“重归”GPU高性能计算应用领域。

Cayman的VLIW构架

　　长期以来，VLIW超长指令一直都是AMD提升体系吞吐能力的重要手段。通过将无关联性的若干指令以超长指令的形式进行打包，AMD可以以很简单的外部资源环境来供给多个ALU团簇，更少的发射端资源等所带来的晶体管优势是巨大的，这使得传统的RV构架每一次更新几乎都以暴力释放运算资源为基本特征。

VLIW吞吐

　　VLIW虽然可以拥有极高的吞吐量，但其天生的对指令无关性的要求却成了其最大的软肋。无论图形领域还是通用计算设计的数学领域，条件分支的应用都能带来更好的性能以及更加方便灵活的编程方式。如果构架采用了VLIW模式，编程端就要大费周章的为代码找齐无关性，而且实际上绝对的无关性是不存在的，因此最终还是会有一定的条件分支流入构架中，VLIW构架执行这些条件分支类得程序的效率是非常低下的。假定一个VLIW包中的指令B需要指令A的运算结果作为起始条件，这种VLIW包对于所有的传统RV构架几乎都是噩梦。有介于VLIW天生的缺陷，AMD放弃它也可以说是意料中事。

不同吞吐方式的对比

　　在Graphics Core Next中，AMD重新使用了传统的原教旨SIMD吞吐模式，构架以CU为单位进行CTA级得吞吐，当CTA进入CU之后，CU内部的线程仲裁机制会进一步将CTA拆解成wavefront，vector ALU将不再要求指令遵循严格的无关联超长字节属性，wavefront拆解出来的指令将可以直接以原始形态进入vector ALU内部执行。

条件分支改进

　　Graphics Core Next对吞吐模式的改进以及对VLIW的撅弃，不仅大大的提高了ALU的执行效率，尤其是条件分支的执行效率，更简化了对编程及编译器端得要求，这不论是对通用计算还是图形领域来说都是个好消息。

吸血大魔王 · 发表于 2011-6-23 12:07:56

● 蓝色的“芯”
　　
　　既然已经抛弃了VLIW，那么对ALU团簇的改进就成了摆在AMD面前的当务之急了。可是VLIW结构毕竟已经在AMD构架中使用了五代，长达近5年的时间里AMD的所有研究工作全部围绕着它来开展，现在想要推翻谈何容易。在VLIW CORE结构出现之初，AMD曾经有多次机会可以以比较小的代价完成转型，比如RV670以及RV770之后，AMD都曾经有机会利用构架改进这一契机从VLIW中抽身而出。但出于种种原因，AMD放弃了这些机会，这使得AMD在VLIW的路上越陷越深难以自拔。

R600 ALU结构

　　怎么办？别急，让我们先来看一位非常熟悉的老朋友——Larrabee。
　　为解决浮点指令以及shader的吞吐问题，Intel在Larrabee中引入的全新的Vector Unit，也就是向量处理单元，Vector Unit在结构上与Intel的AVX指令集非常类似，单周期可以吞吐16条32bit浮点指令，这使得Vector Unit在一般情况下拥有了超过AVX一倍的浮点吞吐能力。透过shader compiler的配合以及Scalar Unit的管理，Vector Unit在吞吐常规shader以及通用计算指令都时表现出了极高的效率。

Larrabee构架

　　既然重新选择前所未有的方向对于深陷VLIW的AMD来说太过艰难，那不如干脆选择已有的类似模型和经验。于是在Graphics Core Next中，我们看到了AMD为我们奉上的全新Compute Unit单元。

Graphics Core Next CU结构

　　新CU单元较之原有的VLIW CORE最显著的改进，来自ALU团簇部分的设计。传统RV构架的VLIW CORE采用4个1D ALU+1个全功能4D ALU（Cayman前）或者4个1D ALU（Cayman）捆绑并共享发射端等资源的方式，而伴随着VLIW的废弃，Graphics Core Next全新设计的运算单元也彻底抛弃了硬件单元的打包捆绑方式，直接采用16个Vector ALU划分一组SIMD CORE，每个CU包含4组Vector ALU的形式。每个16 wide vector ALU配备64K专有向量寄存器，并直接与CU内部的16K L1 Data cache以及64K LDS直连。另外，AMD还在vector ALU团簇外围放置了一个专门的Scalar Unit用于整个浮点吞吐单元的管理以及常规整数数据的吞吐，Scalar Unit拥有专有的8K寄存器。
　　眼熟么？是的，我也觉得挺眼熟的。

吸血大魔王 · 发表于 2011-6-23 12:08:36

● uncore的纠结　　　　core部分的大改动只是AMD一系列构架改进的一部分，Graphics Core Next的uncore设计同样出现了天翻地覆的变化，而且创造了AMD GPU历史上若干个第一次。第一次使用了完整的多级cache体系，第一次彻底取消了Tex cache，第一次加入GPU统一定址，第一次加入了ECC内存的支持等等。

Graphics Core Next存储结构改进

　　除此之外，Graphics Core Next还突出了原子操作的作用，强化CU间以及基于线程块级的乱序执行能力。

Graphics Core Next线程改进

　　也许你一时间还无法理解这些改进的意义，在详细的对他们进行探讨之前，我们不妨先来看一下AMD竞争对手的发展轨迹——GT200中首次引入原子操作，GF100进一步强化了原子操作及快速上下文切换性能。GF100中首次引入多级cache体系，并将在kepuler构架中进一步予以强化。GF100中首次引入并行GPC结构，并以此为基础，搭配分支论断实现了基于CTA以及GPC级别的并行kernel管理，同时引入了统一定址以及ECC内存的支持……

GF110构架

　　纠结么？没错，其实同core一样，Graphics Core Next中对uncore部分的改进，其思路和经验绝大部分依旧来自于竞争对手发展多年的构架，只不过这次的来源并非Intel，而是AMD在桌面图形的老对手NVIDIA。

吸血大魔王 · 发表于 2011-6-23 12:09:00

● 不一样的cache
　　
　　作为uncore部分改动的起点，我们首先要面对的是全新加入的cache体系。
　　
　　在传统的RV体系中，缓存的改进力度一直都比较小。R600时代引入的GDS直到今天仍然是AMD GPU构架中最重要的临时缓冲资源，尽管RV770开始AMD引入了LDS作为GDS的补充，但对于LDS的开发长期以来一直进展缓慢，甚至很多程序员至今还在抱怨自己都无法“看到”LDS的存在，更不要说应用了。

Graphics Core Next CU细节

　　shared作为一种延迟完全透明的只读缓冲体系，相比于可操作且延迟黑箱化的cache有着众多的局限性。除了对编程有很高要求之外，其对游戏以及大部分图形过程的助益都非常的小。有实验证明，大幅改进并扩容的GT200的shared memory，对3Dmark Vantage所带来的提升仅约为3%。相比单纯的shared，cache的优势在于更加灵活，它不仅能充当寄存器溢出缓冲，为特殊程序提供透明延迟的缓存，还可以为其他单元如Texture等的高速缓存，加快对应单元的操作速度。

费米构架存储体系

　　在Graphics Core Next中，AMD终于为其构架添加了2级unifield cache，从图中我们可以看到，L1直接包含在CU单元之中并同Vector ALU直连，每4组Vector ALU团簇分享16K Data cache,L2 cache位于CU之外且并未与Vector ALU进行直连。

Graphics Core Next CU细节（二）

　　尽管从大方向上看，Graphics Core Next借鉴了费米构架的cache体系的许多经验，但其细节与费米存在不小的差异。首先，Graphics Core Next的cache连接方式与费米不同，ALU并不能直接访问L2。其次，在Graphics Core Next体系中，cache的作用仅仅是单纯的cache，并未与GDS和LDS发生任何关系，这与费米的L1 cache与shared memory根据程序需要机动分配大小的做法完全不同。第三，目前的Graphics Core Next体系中并未包含Tex cache，AMD选择将L2 Data cache直接向TMU开放。

Graphics Core Next运算单元

　　cache体系的出现，极大地缓解了传统RV构架外围资源紧缺的现状，它不仅改善了整个体系寄存器溢出缓冲的环境，更为程序员提供了大量可用资源，为更加灵活的shader提供了先决条件。

吸血大魔王 · 发表于 2011-6-23 12:09:27

● 前所未有的并行构架　　　作为DX11的重要组成部分，并行kernel的出现极大地改善了图形线程的执行效率，同时也将构架体系并行度的问题提到了前台上。传统的RV构架一直到RV870为止都是不具备严格意义上的并行设计的，而Cayman构架的设计虽然具备了并行性的雏形，但其ALU团簇部分依旧是一个整体。

并行kernel示意

　　在Graphics Core Next中，AMD大力改进了整个构架的并行度，以CU为单位进行了完成了并行化管理结构。整个体系拥有2级线程仲裁机制，最外围的线程仲裁机制负责整个构架个并行单元之间的kernel管理工作，而CU内部则具备单独的仲裁机制。而且在未来的构架中还可能会将若干CU捆绑成一个类似GPC的结构，结构内部共享一套几何资源和一套纹理资源，这将极大地提升Graphics Core Next的并行处理能力。

Graphics Core Next改进

　　不仅如此，在前面的ALU改进部分我们已经看到，即便是在CU内部，其CTA级的并行度也得到了极大地改善，CU内部的4组vector ALU能够并行完成wavefront的吞吐，这极大地提升了vector ALU单元的运算效率。

更加先进的wavefront吞吐管理

　　除此之外，AMD还大幅改进了新构架的原子操作能力，原子操作可以保证若干线程构成的线程块的操作不会被进一步分割或者影响，同时让多线程块完成快速的操作以及切换，原子操作针对多线程并行执行设置了诸多保护机制，它可以协助管理线程“从生到死”的整个过程，这对于线程块的快速并行执行有极其重要的意义。

费米构架原子操作性能

　　最后，有了上述这些改进，AMD在Graphics Core Next中终于开始提倡乱序执行这一概念了。并行的类GPC结构以及二级的CU结构，能够允许不同的kernel以及不同的CTA以乱序的形式进入队列，对于经过充分线程优化的DirectX 11游戏应用以及其他通用计算程序而言，新构架与传统的RV构架的执行效率几乎就是天渊之别。

吸血大魔王 · 发表于 2011-6-23 12:09:56

● 如此改进为哪般……　　AMD对Graphics Core Next的改进可以说是天翻地覆的，从上面的介绍中我们不难发现，AMD在新构架中大量借鉴了来自Intel以及NVIDIA的多种成功经验，甚至说的严厉一点，这构架“uncore部分克隆Fermi，core部分照搬Larrabee”也不算过分。该构架拥有非常优秀的通用计算结构以及并行化结构，在高效率的执行运算代码及shader代码方面具备非常良好的基础，这种倒向计算的方向极大地悖逆了AMD先前坚持了5年之久的发展路线。

被抛弃的VLIW结构

　　不管是Fermi还是Larrabee，长期以来不管是媒体还是公众对他们的看法，大抵上都是“精于通用计算，并因此背上了大量与图形无关的负担”之类的。在众多AMD拥趸的眼中，以Fermi为代表的一系列NVIDIA图形构架甚至可以说是失败的，它在通用计算这种看似和显卡以及游戏应用完全无关的领域投注了太多的晶体管，所换来的仅仅是巨大的核心面积，过高的发热以及并未明显领先的图形性能，公众甚至还要为那些看上去毫无用途的通用计算设计背负不必要的成本负担。反倒是AMD精简同时针对性强的构架有着无可比拟的优势，它小巧、灵活，完全精于图形领域，几乎没有一个晶体管被浪费。

看似没有浪费的RV构架

　　问题来了——既然AMD先前的构架如此先进且精于图形，为何要在Graphics Core Next中大量借鉴对手构架的许多核心经验，并将自己整个GPU体系的未来发展方向都彻底倒向公众认定的“错误方向”呢？
　　答案很简单，因为对于图形发展来说，其实错的并不是对手们，起码不完全是。

Compute Shader加速实现的1000光源效果

　　对于正在快速发展的DirectX 11 API来说，图形计算和通用计算的界限已经极其模糊了。随着Compute Shader的出现以及快速普及，GPU中的通用计算能力被大量用来进行图形特效的加速，比如过快速的亮度直方图绘制来检查场景光照情况，以2维卷积求解为基础的锐化操作，快速矩阵区域求和带来的硬件Deferred Z culling、HiZ以及由此产生的更加逼真和高效的流体计算，快速傅里叶变换带来的更加高效的水面波幅效果，还有视频和像素操作中至关重要的离散反余弦，甚至是光线追踪等等，当然还包括更好性能的DOF，SSAO以及大量Deferred Shading带来的全新特效。

基于Compute Shader的DOF特效

　　非常不幸，这些特效的实现，全部要求构架在拥有传统图形处理能力的同时，拥有极强同时极其灵活的通用计算能力，而这恰恰是传统的RV构架这种只会吞吐的肌肉男最不擅长的工作。如果想在未来的DirectX 11的图形世界中生存，全面改进构架并倒向通用计算几乎是必然的。

HiZ示例

　　其实，我个人倾向于使用下面的描述，来解释AMD在此时而不是更早的先前就为我们奉上更加符合技术发展需要的构架——AMD一直以用户的根本利益为出发点，用户需要的就是我们所提供的。按照用户的需求，先前并没有提供优秀的或者说过分强调DirectX 11的构架的必要。AMD认为现在开始进行全新构架的研发是合适的，因为经过对手经年累月的发展，很多错误的发展方向已经被他们一一触碰甚至排除了，此时借鉴他们的成功经验，不仅有利于我们进一步改善用户的体验并满足他们的需求，更可以使我们少走许多弯路，削减研发成本就是削减用户的负担，是对用户负责人的表现。过去没有提供这样的产品，就是我们AMD秉承用户至上原则的具体表现。
　　不知道这段描述，你满意么？

吸血大魔王 · 发表于 2011-6-23 12:11:05

● 绝对禁忌话题——APU的路线也错了么？　　说完了图形，我们不得不说说与图形同等重要的另一个领域——高性能计算和HPC。因为此次Graphics Core Next的诸多改进中包含了两个对AMD高性能计算领域以及融合概念都非常关键的东西：统一定址以及ECC内存的支持。

费米构架的统一定址

　　我们知道，APU的基本思路是将GPU挂在CPU内部，通过cache或者MC将两者有机的结合在一起。GPU可以在CPU需要的时候为CPU提供浮点运算的加速，但这有赖于软件和硬件两方面的支持，其中来自硬件方面的一个重要限制因素，就是统一定址。

关于cache的改进确实有益，但APU应用问题根源在统一定址

　　由于传统的RV构架并不具备统一定址能力，实际上目前为止的所有APU融合进行的都不彻底。对于CPU而言，挂在北桥上与它共享MC的这颗GPU，与在PCIE插槽上插着的那些家伙并没有本质区别。CPU既无法直接访问GPU，也无法在任何需要的时候都随心所欲的征用GPU的运算能力。甚至GPU在进行图形操作时所划分的那部分主内存对CPU来说都是一个黑箱，CPU根本无从得知GPU究竟干了什么。统一定址的出现极大地改变了这一现状，它让未来的APU能够做到真正的统一和融合。
　　这么重大的改进，看来APU的未来前途一片光明啊。

　　先别急着下结论，因为本次Graphics Core Next中还有一个非常重要的更新——对ECC内存的支持。对于HPC领域来说，ECC奇偶校验内存具有极为重要的意义，它能够最大限度的为数据的准确性提供保障。
　　好啊，这又是一个对APU的重大利好啊，APU的未来果然一片光明啊。
　　请仔细看清楚，ECC内存的支持，是添加在哪里的？

Graphics Core Next的ECC添加，与现阶段的Llano无关

　　融合构架的基本思路，也就是GPU通过共享MC或者cache融入CPU，在必要时刻为CPU所用，二者合作共同完成混合加速这一理念，是AMD过去数年间发展融合构架的根本。而根本中的根本，就建立在GPU共享MC或者cache融入CPU。既然是GPU共享CPU的MC，AMD现在为GPU的MC单元添加ECC内存的支持，意欲何为呢？

支持ECC内存的Tesla

　　Llano处理器的出现，在性能端已经证明CPU带宽过低的MC对GPU的各种性能发挥都十分不利，将GPU挂上CPU的cache体系，对于通用计算领域来说能够大幅减少MC所带来的影响，但目前以及可见未来内AMD对于APU的规划，依旧不包含这部分更新。联系AMD CPU状态频出的cache，MC带宽过低对融合GPU性能的影响可能会在未来相当长的一段时间内困扰APU的整体性能。而此时出现的Graphics Core Next，恰恰又与竞争对手的构架一样，为MC添加了至关重要的ECC内存支持，更加不巧的是竞争对手的构架在未来即将融入CPU，并将其挂在带宽极其丰沛的GPU MC之上。
　　AMD的APU之路难道跟GPU一样，起码并不完全正确么？我不知道，也许这一系列事情仅仅都是巧合而已吧。

吸血大魔王 · 发表于 2011-6-23 12:11:39

● AMD的未来：奔驰在非洲大草原上　　　　Graphics Core Next的出现，为AMD带来了更加丰富多彩的未来。它不仅一改过去构架DX11性能注定羸弱的形象，为未来的图形应用打下了良好的基础，更为未来高性能通用计算以及HPC领域的应用打开了局面。

Graphics Core Next多级cache改进

　　但凡事都有两面性，机遇与挑战从来都是并存的，对Graphics Core Next来说也是如此。而且相对来说，他所要面临的问题还要比其他人更加复杂一些。

Graphics Core Next cache改进细节

　　首先是构架巨幅修改所带来的隐患。是不是克隆Fermi或者照搬Larrbee这种事，其实已经不再重要了，对AMD来说，最重要的是如何将这两者的优点完全的融合在一起。以目前公布的结构来看，Graphics Core Next的core部分将会与Larrabee一样拥有恐怖的GPGPU性能，但同样的，它也要面临Larrabee相同的来自编译器端得压力，而这恰恰是AMD最大的软肋。外围类似Fermi构架的uncore部分能够为其提供优秀图形性能以及GPGPU性能的基本保障，但与Fermi不同的资源搭配，以及目前看来过于巨大，甚至让人怀疑是否是数据错误的寄存器数量，都为这个uncore结构的设计埋下了一定的隐患。

Graphics Core Next对未来APU的影响

　　其次，这种激烈的转型，以及它所反映出来的AMD内部其他领域产品及构架可能存在的共同转型，是否会对AMD本身的发展构成巨大的冲击，这是一个巨大的未知数。毕竟从GPU和APU融合双线同时开始对过去的检讨和否定，这种类似官方认错的行为几乎等于推翻了自己过去几年来所投注的全部心血和积累。而且整个公司能否适应新构架带来的新思想，这种新构架带来的冲击是否会起到与预期完全相反将AMD导向混乱和危险的境地，目前还都不得而知。

Fusion未来路线

　　尽管充满挑战，但Graphics Core Next的出现依旧为AMD带来了更多的机遇。相信AMD未来的前途就好像奔驰在阳光明媚的非洲大草原，只要注意周围的一切，前途总是光明和美丽的。
　　最后：本文大量引用了后藤弘茂先生辛勤制作的图片，在此对后藤弘茂先生的辛劳及睿智致以衷心的感谢。