双刃剑伤及自身？Fermi激进技术优劣谈

吸血大魔王 · 发表于 2010-6-23 13:00:13

前言：在Fermi发布之后，全世界所有显卡玩家与高性能运算行业客户都为其强大的性能所折服，当然动用超越AMD HD5000系列50%的晶体管集成度仅换取了10%的传统项目性能提升，也让更多用户感到不知所措。我很早就希望能通过一篇文章来和ZOL的读者们一起讨论Fermi架构设计方面的问题。
为什么NVIDIA要花费如此庞大的晶体管固执地坚持TLP（线程并行度）设计思路？为什么NVIDIA要不断添加周边资源以提升线程仲裁能力甚至不惜放弃纯浮点吞吐？为什么这颗GPU这么大这么热而在DirectX 10项目中只能打平设计简洁明快的HD5000系列？希望我们的读者从这篇文章中找到一些线索，也欢迎你利用页面的评论功能和我们共同交流。

● GT200以来的大核心战略值得商榷
GPU作为图形处理器，在通用计算的概念提出之前一直走着自己简洁明快的设计思路，为了实现更为复杂的图形场景，Shader操作的重要性逐步提升，但是在PC机3D游戏大量普及的DirectX 9时代，GPU中执行的Shader程序中，分支语句用的很少，在早期的GPU中，甚至不提供动态的分支语句。随后的发展远远超出了我们的想象，GPU可以用作更多领域的应用，同时在我们正在经历的DirectX 11时代，GPU的通用计算能力甚至又和传统的游戏相融合，Computer Shader技术正是这一融合的代表。
就是这样一条曲折复杂的发展过程，却折射出过去10年间GPU的架构发展路径，我们的GPU变得越来越大越来越热，显卡从没有外接供电，到逼迫PCI-E插槽不断升级供电能力，再到Fermi架构的GTX480至少需要一个500W额定电源才能稳定运行。
也许你会说这是整个业界的性能需求导致了这次发布的Fermi架构GTX400产品拥有如此之高的功耗，不过和它在传统项目中性能相当的HD5000系列显卡，却在功耗控制方面强于NVIDIA设计的产品，同时21亿个晶体管的HD5870和32亿个晶体管的GTX480在DirectX 10项目中平分秋色。

想法很好的GT200芯片却造成了GPU产品线的严重缺失

从上图中我们能够看出，GT200芯片的设计思路，已经变为并行通用计算能力与图形处理能力并重，当然我作为通用计算的支持者，从未怀疑过这种构想和GPU以性能需求为导向的发展方向的正确性。但是最为一款显卡的核心，GT200芯片的设计思路已经发生了偏离，起码作为一家图形芯片厂商，为下游厂商提供一颗发热和功耗很高的芯片；为用户提供一款难以驾驭的产品，这是一个值得商榷的问题。
事实上在2005年，ATI和NVIDIA都面临这样的情况：造一颗最快的GPU，并提供稳定的驱动程序，那么就可以赢得市场。过去几年中，ATI一直是这么干的。但是在公司内部，有一些人认为是时候改变了。在很多方面ATI和NVIDIA都面临不同的挑战，NVIDIA从之前激进的工艺更新策略中汲取了教训，GT200很有可能仍然采用老的，更成熟的工艺，因此导致GT200的面积很大。

从R300到RV770的芯片面积变化对比

如上图，GT200面积的面积可以说是前所未有。代号GT200的新一代DX10芯片是NVIDIA作为08年暑期攻势的重点产品，和G92只是G80的改进版不同的是，GT200是真正在体系架构上进行了革新的产品，处理单元规模、内存配方面都有了不同程度的提升。
代号GT200的GeForce GTX 280是NVIDIA基于第二代统一着色器及计算架构的第一款产品，架构归属于为G100，在性能上相对上一代的产品（G80）来说快大约50%到100%。NVIDIA的旗舰GeForce GTX 280集成14亿晶体管电路，拥有240颗流处理器，配备了1GB GDDR3显存，采用了512-bit位宽，显存带宽高达141.7GB/s，成熟的65nm技术让GT200虽然庞大，但是功耗和发热都处于可控范围。
GT200晶体管集成度达到了14亿，而依然使用着65nm的制造工艺，因为这种工艺可以非常稳定地生产这种大体积的芯片，改进工艺反而容易出现不可预料的问题。
同时NVIDIA在GT200芯片设计方面提出了Gaming Beyond和Computing Beyond口号，我们可以理解为这颗芯片在提供优秀的图形性能前提下，同样对GPU的运算能力做了大幅度优化。这是NVIDIA在提出CUDA方案后，首次如此强调GPU的通用计算能力，但是我们现在审视这款产品就会发现，GT200在通用计算方面的努力甚至牺牲了一部分图形性能。

看似无人可挡的GT200产品留下巨大的市场空隙

GT200代表了当时图形业界大的性能，同时一些先进特性让人们对这款GPU刮目相看，包括更大的显存容量、更高的显存控制器位宽（NVIDIA第一次尝试512bit位宽）、更强的指令调度能力和流处理器周边资源配合，当然还有首次支持IEEE754规格的双精度浮点支持。虽然NVIDIA一直没有忘记改进每瓦特以及每平方毫米性能，但是GT200带来的功耗和面积问题，还是让它的图形处理热效率相对于G92芯片有少许不足。
GT200的另一个问题是没有将芯片进行有效划分组合，这导致了GT200架构没有中低端产品。只是使用了Harvesting（屏蔽功能单元）的方式制造出了GTX260和GTX275等产品。这些产品的价格直到今天还在1000元人民币以上阶段徘徊，无法真正触及消费级市场。而消费者喜闻乐见的500-1000元显卡市场，还是由G80的衍生产品G92和GT210/220/240所控制，很多用户已经对这种市场划分方式感到索然无味。

吸血大魔王 · 发表于 2010-6-23 13:00:54

● HPC和显卡两条产品线难以驾驭
NVIDIA近日宣布，IBM已经为其最新款高性能计算(HPC)服务器配备了Fermi新架构的Tesla 2000系列高性能计算处理器，这也是NVIDIA Tesla第一次出现在主流HPC系统中。IBM System x系列的“iDdataPlex dx360 M3”是一套半深式2U Flex或者3U高性能计算系统，专为需要高性能但占地空间、电源和散热基础设施受限的数据中心而设计。
因为从某种角度上讲，Tesla可以看作是一款HPC的协服务器，专用门用于浮点运算加速。而从CPU的历史来看，CPU以前也有一个专门用于浮点运算的外置协处理器，最后慢慢移植到了CPU内部。

高性能计算(HPC)已经成为NVIDIA的重要产品线

如果说虚拟化是近年来服务器领域的一大热门，那么在高性能计算（HPC）领域中，通用图形处理器（GPGPU，General-purpose comPuting on Graphics Processing Units），或者说GPU通用计算（下文简称GPU计算）在这几年也越来越火热了。

NVIDIA作为一个出色的商人，它当然知道卖一片Tesla所得的利润，远高于传统的GPU核心Geforce。尽管他们都是GF100芯片，448个流处理器CUDA Cores，但是2500元人民币能够买到的GTX470和2500美元买到的Tesla M2050，在利润贡献方面是完全两个概念。

Tesla利润不菲但是却影响了GPU设计方向

2009年中国研发的基于CPU+GPU混合计算架构的“天河一号”一举夺得了中国TOP100超级计算的排名的桂冠，闯入全球TOP500强的前五位，让人们见到了GPU计算的威力所在。完全可以说，GPU通用计算已经是一个不可阻挡的潮流。而此次设置于深圳中国国家超级计算机中心（National Supercomputing Centre）的“星云”，采用Intel的X5650处理器，搭配NVIDIA的Tesla C2050绘图处理器做为加速器。
但是不可否认的是，同时兼顾HPC和显卡两条产品线，已经让NVIDIA心力憔悴。因为在HPC领域受欢迎的是大芯片战略，GPU必须拥有更强的ALU运算器组织能力而不仅是大量的运算单元。换而言之，每个运算器的后备资源必须足够充沛，才能保证芯片在遇到复杂的运算环境时降低理论性能衰减。

仅存储体系方面Fermi就做出的重大变动

将GPU的应用范围扩展到HPC领域，实际上和传统的图形渲染是有一定冲突的，这一点谁都不敢否认。因为由此造成运算器发射端和寄存器容量增长，会导致GPU晶体管数量快速上升，所以我们看到NVIDIA和AMD对阵过程中，Fermi架构使用32亿晶体管换取的DirectX 10图形性能和RV870芯片HD5870用21亿个晶体管换取的性能不相上下。HPC领域的大幅度领先导致了传统图形渲染的每瓦特性能远逊于对手AMD，这就是NVIDIA这一代GPU产品面临的最大困境。

吸血大魔王 · 发表于 2010-6-23 13:05:54

● NVIDIA遇到的架构设计障碍
上文我们分析了NVIDIA同时兼顾HPC和显卡两条产品线被迫不断调整其GPU以符合两个市场的性能需求。那在本页，就让我们更加深入得分析NVIDIA遇到的架构设计障碍，虽然这种分析对于真正的设计而言很肤浅，但还是希望读者能够感受到这其中透露的问题。
TLP线程并行度的设计方向是近年来NVIDIA公司GPU设计的主要目标。展望未来GPU发展，以下几个问题是必须解决的。首先是分支预测能力，GPU需要拥有更好的分支能力，才能运行更多复杂程序，更好的利用cache来掩盖分支的延迟；然后是更大的缓存和Shared memory（AMD称之为LDS ，Local Data Share），这种共享寄存器负责共享数据和临时挂起线程，容量越大，线程跳转和分支能力就越强；线程粒度同样重要，粒度越细能够调用并行度来进行指令延迟掩盖的机会越大，性能衰减越小。细化粒度对GPU的线程仲裁机制要求很大；同时大容量缓存的可读写性也是必须具备的……

一套架构跨越两个产品线

除此之外实现更高水平的通用计算还有很多棘手的问题，现在它们已经被摆到NVIDIA面前。NVIDIA沿着自己设定的方向，却用自己的产品打开了GPU领域的“潘多拉魔盒”，Fermi架构到底该如何看待，更是带给业界前所未有的思考。
Fermi的分支能力虽然得到增强，但它依然不是分支预测，而是分支论断（predication），这一步的提升在以前是不敢想象的。在Fermi中为这一功能的初步实现提供了一个独立单元，它和仲裁器、Atomic单元的地位一样重要。分支论断只能算是分支预测的雏形或前身，需要的硬件开销的也较小，但这还是给NVIDIA带来了很多难题。
更大的缓存更是遥不可及，无论是Shared memory还是cache，这些缓存空间的提升需要半导体工艺的强大支持，因为这部分缓存和CPU一样使用6T SRAM晶体管，SRAM的每一个比特位需要占用6个晶体管，存储密度较低，每1MB容量的二级缓存就需要占用5000万个晶体管，这是一个相当惊人的数字。
缓存的可读写性带来了很多问题，它包括缓存一致性协议，缓存的命中率等问题，这些问题每年要消耗Intel和AMD等CPU制造公司很多研发力量，而Fermi的诞生，只能把NVIDIA也牵连进来。

就目前Fermi架构GTX470/GTX480产品所表现出的各种特性来看，我认为有以下几把双刃剑悬在NVIDIA头上迟迟不能解决：

1、大容量可读写缓存架构对GPU性能和功耗的影响

Fermi有768KB的统一的L2缓存，可以支持所有的存取和纹理操作。L2缓存和所有的SM都想通。L2提供有效和高速的数据支持。有些算法不能在运行前就确定下来，像一些物理问题，光线跟踪，稀疏矩阵乘法，尤其需要缓存的支持。过滤器和转换器需要所有的SM都去读取相同数据的时候，缓存一样会有很大的帮助。

Intel利用晶体管睡眠技术分区管理SRAM缓存功耗

缓存的可读写性带来了很多问题，它包括缓存一致性协议，缓存的命中率等问题，这些问题每年要消耗Intel和AMD等CPU制造公司很多研发力量，而费米的诞生，只能把NVIDIA也牵连进来。同时缓存所面临的另外一个问题就是功耗难以控制，SRAM电路不像其他逻辑电路设计，一旦通电就会全速运行功耗也达到最大值。目前Intel和AMD所使用的都是分块管理缓存，针对这一部分电路并没有非常好的功率控制方式。

Cache引入后，驱动就变得更加重要或者说是极端重要。首先，开发一种任何游戏几乎都能受益的全局优化算法对NVIDIA来说太难了，同时如果针对某个游戏优化，那就不可避免的会出现其他游戏不合口味的问题。Cache的引入是良好的开端，但我更希望这个开端由Intel来做。毕竟NVIDIA从未涉及过大容量全局缓存的开发工作，所以做这项工作还是不够稳妥的。

2、纹理单元配置的冒险性

基于全新DirectX 11技术的GTX 480在拥有前面两个介绍的引擎之后，对于诸如Tessellation曲面细分等技术的支持自然优异。但是对于传统GPU显示核心而言，最为基本的TA和TF资源也不能或缺。GF100核心每个SM单元内包含四个纹理单元，GTX 480共拥有4组GPC即16个SM单元，简单计算可知在GTX 480内共有64个Texture Units纹理单元，与GT200架构中的80个纹理单元相比似乎有所减少。

GF100架构的一个SM内部纹理单元配置

更为重要的是GF100的TA纹理寻址单元数量为64个，而TF纹理过滤单元则达到了256个，在G80架构中TA与TF之比为1:2，而后期改进的G92核心中NVIDIA出于无奈，将TA与TF之比恢复为1:1，若GF100的TA、TF数量的确为64/256，那么这个比例将达到前所未有的1:4。和传统的1:1配置相比，GF100的纹理定址能力明显减弱。拾取单元需要定址之后才能动作的，定址单元不够的情况下，在大多数3D应用中光有拾取是完全靠不住的。

但是NVIDIA坚持认为TA与TF单元的比率，是根据大量的模拟结果，由构架团队决定的，影响最终架构的有模拟结果，以及对未来发展趋势的预测，当然也外带情报，最终Fermi架构GF100芯片的纹理单元配置是取合适比例的结果。

吸血大魔王 · 发表于 2010-6-23 13:06:25

● Fermi功耗与温度表现不容忽视

Fermi架构的GTX400系列显卡在晶体管数量方面达到了创记录的32亿个，但是32亿个晶体管几乎触碰了TSMC 40nm制程工艺极限，最后导致了GTX480和GTX470的发热量过大，功耗方面，单卡单芯的GTX480几乎能和单卡双芯HD5970相比。不可否认的是这是一个让所有用户感到不可思议的结果。

在基于Fermi架构的产品大面积上市之后，我们对GTX480和GTX470做了发热和功耗测试，相信经常来中关村在线看显卡评测的读者已经熟知了这些数据，不过今天我们还是需要将这些测试结果放出以便用户参考。

我们的测试是在室温26度的环境中进行的，使用送测产品的则是NVIDIA公版显卡。我们使用了Furmark 1.8.0软件来测试GPU功耗和发热，软件自动生成温度曲线。实际上芯片的最大功耗需要使用调节电平的方式获得，OCCT软件是一个比较合适的选择。但是AMD和NVIDIA都认为Furmark通过重负载渲染可以作为一个较为公平的功耗或发热考核方法。

GTX470温度曲线

GTX480温度曲线

通过上图我们得到了GTX480产品的温度曲线，我们这款显卡在待机时可以维持64度，但是满载最高温度达到了95度，最后是在风扇转速92%的镇压下稳定在91度，这个结果的确不能让大多数追求平衡的用户满意，当然追求极致性能的用户可能不会在乎这种风扇转速。但是不可否认的是一款民用级别显卡达到如此温度，已经严重影响了用户的正常使用。

GTX470在温度方面表现略微好转，测试起始温度67度，最高温度没有超过85度。但是这种温度的获得，仍然需要抬高风扇转速来获得，总体来说这的确不是一个令人满意的结果。

　　功耗检测部分，我们使用Seasonic PowerAngel功率计测试整个系统的实时功率，CPU关闭了EIST等自动降频功能以减少误差，空载为系统进入操作系统待机时、满载为运行Fumark + GPU-Z软件烤机模式，取值均是相当长一段时期观察达到过的最大值。

GeForce GTX 400系列标配的GF100核心拥有32亿晶体管，它有上面的表现笔者并不意外。在待机状态下GeForce GTX 400系列表现不多，与同为40nm的Radeon HD 5800系列实力相当。但是在满载测试中，32亿晶体管弊端显露无疑，GeForce GTX 480单卡平台满载功耗高达466瓦，而GeForce GTX 480 SLI平台更是达到了820瓦。总而言之GeForce GTX 480功耗控制不佳。

吸血大魔王 · 发表于 2010-6-23 13:07:01

● 图形与通用计算融合艰难
Compute Shader技术是微软DirectX 11 API新加入的特性，在Compute Shader的帮助下，程序员可直接将GPU作为并行处理器加以利用，GPU将不仅具有3D渲染能力，也具有其他的运算能力，也就是我们说的GPGPU的概念和物理加速运算。
用更加通俗易懂的话来解释，Compute Shader技术实际上就是一道把GPU通用计算和传统图形处理沟通起来的桥梁。未来更多的特性特效将通过GPU通用计算来实现。借助这一技术GPU中的流处理器单元可以变为类似CPU的计算中心，处理一系列如后期渲染、图像质量增强、高质量阴影过滤、景深效果以及高级环境光遮蔽效果。
Computer Shader的初衷，就是使用通用计算的手段来进行后处理。由于GPU的浮点运算能力非常强大，支持GPU进行通用计算的技术发展势头很快，NVIDIA和AMD分别有CUDA和Stream技术，以前两家是各自为战，如今微软也看到了GPU通用计算的曙光，在DX11中加入了Compute Shader这一技术，意在统一当前的通用计算技术。你可以认为Compute Shader标准就是微软提出的OPEN CL。

Computer Shader在图形计算中发挥重要作用

在上图中，图一表示了Compute Shader做图像后处理（Post Process），图片是《地铁2033》的游戏截图，利用Compute Shader技术做景深处理可以得到更好的效率。图二表示利用Compute Shader技术做IA人工智能。图三表示CUDA或者未来的Compute Shader结合OptiX技术做光线追踪。图四表示SPH流体模拟，流体的模拟，是典型的通用计算应用实例，对Shader性能要求较高。
Compute Shader可发挥的地方很多，游戏中可以使用GPU进行光线追踪、A-Buffer采样抗锯齿、物理特效、人工智能AI等游戏特效运算。在游戏之外，程序员也可以利用CS架构进行图像处理、后处理（Post Process）等。

发布DX11显卡之后不久AMD放出了一个名为ladybug的DX11 Demo，其中就有Depth of Field效果的演示。

在硬件支持Compute Shader之后，相应的硬件必须要比当代硬件更加灵活，因为在运行CS代码的时候，硬件必须支持随机读写、不规则列阵（而不是简单的流体或者固定大小的2D列阵）、多重输出、可根据程序员的需要直接调用个别或多个线程、32k大小的共享寄存空间和线程组管理系统、粒数据指令集、同步建构以及可执行无序IO运算的能力。
Compute Shader原则上可以处理一切效果。不过现在用得最多的，大体上是DOF，也就是景深效果。而其他更为复杂的图形效果还在继续实现中，也就是说Compute Shader目前还在继续添加完善。虽然NVIDIA一直寄希望于这项技术能够更多的帮助图形开发者用更简单的操作完成更复杂的特效处理，不过目前Compute Shader的效率和应用范围都需要提升。

吸血大魔王 · 发表于 2010-6-23 13:08:11

● AMD对GPU架构的不断改进和优化
2007年6月3日，AIT终结了长达7个月的等待时间，Radeon HD 2000家族终于发布。业内第一片DX10 GPU的头衔被G80抢了去，不过ATI这次也没有完全被NVIDIA牵着鼻子走。除了对DX10和统一着色架构的支持外，R600还加入了一些特有的功能。例如，独立于几何着色器（Geometry Shader）的专用曲面细分单元（tessellation），加入属于Direct X 10.1范畴的可编程AA功能等。

80nm工艺制造的Radeon HD 2900 XT

R600架构在最后的设计阶段，已经发现了明显的问题，那就是SIMD结构的流处理器在使用了VLIW之后，过分依赖指令系统和编译器的效率。如果说流处理器数量足够多，则可以在宏观上抑制这种性能下降，但是R600但是只有320个流处理器。
RV770可以说是AMD化腐朽为神奇的力作，较之R600，RV770不仅将公共汽车一般缓慢的Ringbus换成了高速直连的Crossbar，而且还追加了大量的资源，比如为16个VLIW CORE配置了16K的Local Data Share，同时将原有的Global Data Share容量翻倍到了16K，在此基础上，还将VLIW CORE规模整体放大到了R600的250%（320个提升到800个），另外，在后端配置的RBE单元以及更加完善的TA/TF也促成了RV770的脱胎换骨。

代号RV670的工艺改进版显卡 Radeon HD3870

在扩展ALU资源的基础之上，AMD还在做着另外一件事，那就是尽一切可能逐步优化较为古老和低效的SIMD结构。在RV7中对LDS的空间直接读写操作管理等改进就是这类努力地开始。这导致了R600和R700在Shader Program执行方面有很大差别。R600的Shader Program是Vertical Mode（5D）+Horizontal Mode（16x5D）的混合模式。而RV770是单纯的Vertical Mode（16x4D=64D & 16*1D=16D，即64D+16D）。
2009年09月23日，AMD为我们带来了基于DirectX 11的Radeon HD5870显卡。它采用第二代40nm工艺制造、搭载第四代GDDR5显存、拥有1600个流处理器、Eyeinfinty多屏显示技术、超低待机功耗等。最为关键的是Radeon HD5870满足了DirectX 11的一切设计要求，同时取得了对NVIDIA上一代顶级单卡Geforce GTX285的全面领先。

定位出色的Radeon HD 4850

除了规模上的扩张，RV870还竭力弥补了R600架构之前遗憾。过去，由于过分注重成本，从R600开始AMD家族的通用运算能力就落后对手不少。AMD在RV870上着重改进了这一点，新加入的LDS（Local Data Share）有效提升了存储性能，改善了流处理器的执行效率。RV870不但支持微软DirectCompute和苹果OpenCL通用计算平台，还重新优化了数据共享结构，提供了完整的多级缓存供流计算使用，并且优化了访存能力。抢占式多线程虽然在技术层面略逊于Fermi的多级多分配并行多线程设计，但是就技术的标准来讲，RV870与对手站到了同一起跑线上。
AMD从R600核心开始，一直延续着上述理念设计GPU产品，R600身上有很多传统GPU的影子，其Stream Processing Units很像上代的Shader Units，它依然是传统的SIMD架构。这些SIMD架构的5D ALU使用VLIW技术，可以用一条指令完成多个对数值的计算。

当之无愧的一代显卡王者 Radeon HD 5870

由于内部的5个1D ALU共享同一个指令发射端口，因此宏观上R600应该算是SIMD（单指令多数据流）的5D矢量架构。但是R600内部的这5个ALU与传统GPU的ALU有所不同，它们是各自独立能够处理任意组合的1D/2D/3D/4D/5D指令，完美支持Co-issue（矢量指令和标量指令并行执行），因此微观上可以将其称为5D Superscalar超标量架构。
SIMD虽然很大程度上缓解了标量指令执行效率低下的问题，但依然无法最大限度的发挥ALU运算能力，尤其是一旦遇上循环嵌套分支等情况，SIMD在矢量处理方面高效能的优势将会被损失殆尽。同时VLIW的效率依赖于指令系统和编译器的效率。SIMD加VLIW在通用计算上弱势的原因就在于打包发送和拆包过程。
AMD所使用的SIMD结构流处理器，具有非常明显的优势就是执行全4D指令时简洁高效，对晶体管的需求量更小。而NVIDIA为了达到MIMD流处理器设计，消耗了太多晶体管资源，同时促使NVIDIA大量花费晶体管的还有庞大的线程仲裁机制、端口、缓存和寄存器等等周边资源。NVIDIA为了TLP（线程并行度）付出了太多的代价，而这一切代价，都是为了GPU能更好地运行在各种复杂环境下。
NVIDIA在最近3年中更新了3次GPU硬件架构，它们分别是：

● 面向DirectX 10游戏设计以G80G92为主的第一代统一渲染架构
● 面向游戏和通用计算并重的GT200架构（不包含GT210 220 240）
● 面向大规模并行计算和游戏并重的Fermi GF100架构
而ATI在最近3年中，成功推出了4款GPU硬件架构，它们分别是：

● HD2000系列第一代统一渲染架构
● HD3000系列平衡和改进型统一渲染架构
● HD4000系列扩张型优化后端和增添LDS缓冲架构
● HD5000系列支持DirectX 11放大版优化通用计算统一渲染架构
几乎在每一代架构更替中，AMD都能通过其强大的细分市场能力制造出数量庞大而又密集的GPU产品线，NVIDIA的产品线则相对于单一，特别是在1000元以下市场很容易被对手包围。
AMD强大的细分市场能力已经无数次得到市场验证，特别是HD5000系列产品中，在确认了HD5870的优势之后，AMD不断细化市场，诞生了以下几个定位卓越市场控制力优秀的产品：

AMD密集的产品线规划

● HD5970 单卡双芯设计，代表了目前单卡GPU顶级性能；
● HD5870 最强单卡单芯设计，在功耗和发热可控的情况下提供优秀的3D性能
● HD5830 高性能级别GPU产品，流处理器数量精简到1120个，让用户可以用更低的价格买到高端GPU；
● HD5770 拥有和GTX260+相仿的性能，但是999元的售价非常切合主流用户的消费心理；
● HD5670 超越NVIDIA的GT240，和9800GT平起平坐，价格上具有一定优势；
● HD5550 在500价位上提供了DirectX 11、Eyefinity和Stream等技术支持，320个流处理器让它压制了对手GT220的进攻，超低价格和新技术是主要卖点。

双刃剑伤及自身？Fermi激进技术优劣谈

摄影爱好者

论坛顶梁柱

传说只有读到博士后的人才可拥有这枚勋章