单卡卡皇NVIDIA GTX680性能全面测试

吸血大魔王 · 发表于 2012-3-31 14:49:39

本帖最后由吸血大魔王于 2012-3-31 15:22 编辑

“小”在很多时候都意味着一些负面的东西，比如说“柔弱”、“缓慢”等等。但其实很多看上去很小的东西往往会表现得出人意料的强大，比如说手提箱核弹，比如说GTX680……
　　北京时间2012年3月22日21时，美国西海岸时间2012年3月22日6时，NVIDIA正式发布了第二代DirectX 11图形构架产品——代号Kepler的GTX680。这是一款集小巧、低成本、低功耗以及高性能于一身的全新产品，它将会直接以最高规格单芯旗舰的身份面对竞争对手AMD于3个月之前发布的Tahiti构架旗舰产品HD7970。

　　每次NVIDIA与AMD全新图形构架的对决总是充满了戏剧性同时抓人眼球，我们总是会期待两家能够为我们带来更加高效的全新结构以及更加出色地产品。但毕竟这对冤家之间的故事已经持续了5年多了，我们已经渐渐地习惯了NVIDIA提供的性能更强但尺寸更大的芯片，也习惯了AMD为我们带来的“小核心策略”以及单卡双芯卡皇。虽然每次构架更迭都会带来更多惊喜，但一些仿佛约定俗成的规律正在慢慢的占据着我们的潜意识。

GTX680正式发布了

　　按照GPU发展的一般性规律，能够提供更大规模以及更大尺寸的芯片面积的构架，在绝对性能上是不会输给更小的同代对手的。无论是G80对R600，G92对RV670，GT200对RV770还是最近的GF100/110对Evengreen/Cayman，NVIDIA已经习惯了做单芯片性能的胜利者，而AMD则总能通过双芯获得卡皇的位置。
　　但是这一次，事情好像有点不大对头了——初见之下的GTX680一上来就打破了我们传统的认知，无论芯片尺寸还是整体规模，它都比HD7970要来的更小。但在此基础上，它却拥有了高于HD7970的最终性能，而且几乎在所有场合都能保持一定程度的领先。

这颗“手提箱核弹”究竟藏着多少秘密？

　　个头小但却更快，难道一般规律已经死掉了么？我不得不抱歉的通知你：是的。这款尺寸小巧但威力却如同手提箱核弹一般的全新GPU的到来，意味着“能够提供更大规模以及更大尺寸的芯片面积的构架，在绝对性能上是不会输给更小的同代对手的”这条统治GPU界许多年的基本规律被无情地打破了。在今天的首测及构架解析文章中，我们将会同你一起经历一场关于基本认知的变革。

吸血大魔王 · 发表于 2012-3-31 14:50:57

● GTX680规格一览　　GTX680基于全新的Kepler图形构架，拥有超过35亿的晶体管规模，核心面积294平方毫米，仅为HD7970的80.5%。与上代的Fermi构架相比，其运算资源总量提升到了1536个ALU，Texture Filter Unit由Fermi的64个增加到了128个，构成后端的ROP则下降为32个。HD7970拥有全新设计的MC结构，6个64bit双通道显存控制器组合形成了全新的384bit显存控制单元，HD7970也因此采用了容量达3072MB的显存体系。

GTX 680 显卡对位产品规格比较表
显卡型号	GeForce GTX 680	Radeon HD 7970	Radeon HD 6970	GeForce GTX 580
市场定价	3999元	4299 元	2999元	3999 元
GPU代号	GK104	Tahiti	Cayman	GF110
GPU工艺	28 nm	28 nm	40 nm	40 nm
GPU晶体管	35.5 亿	43 亿	26.7 亿	30 亿
着色器数量	1536	2048	1536	512
着色器组织	1D*1536	Vector*2048	4D*384	1D *512
ROPs数量	32	32	32	48
纹理单元数量	128	128	96	64
核心频率	1006 MHz	925 MHz	880 MHz	772 MHz
着色器频率	1006 MHz	925 MHz	880 MHz	1544 MHz
理论计算能力	3.09 TFLOPs	3.79 TFLOPs	2.7 TFLOPs	2.37 TFLOPs
等效内存频率	6000 MHz	5500 MHz	5500 MHz	4008 MHz
内存位宽	256 bit	384 bit	256 bit	384 bit
内存带宽	192.3 GB/S	264 GB/s	176 GB/s	192.4 GB/s
内存类型	GDDR5	GDDR5	GDDR5	GDDR5
内存容量	2048 MB	3072 MB	2048 MB	1536 MB
DX版本支持	11.1	11.1	11	11
HD视频技术	PureVideo HD+NVENC	UVD3.0 VCE	UVD3	PureVideo HD
通用计算接口	CUDA	Stream	Stream	CUDA

　　GTX680的默认核心及显存运行频率为1006/6000MHz，默认Pixel Fillrate能力为32.2G/S，默认Texture Fillrate能力为128.8G/S。显存带宽192GB/S。拥有3.07T的单精度浮点运算能力。
　　GTX680的特色由六个主要的部分组成：
　　1、基于HKMG的TSMC全新28nm工艺以及由此带来的高性能功耗比。
　　2、与Fermi完全相同的4XGPC宏观并行设计。
　　3、8个包含了几何引擎、光栅化引擎以及线程仲裁管理机制的SMX单元。每个SMX单元包含一组改进型的负责出力几何任务需求的PolyMorph Engine，192个负责处理运算任务及Pixel Shader的ALU，16个负责处理材质以及特种运算任务如卷积、快速傅里叶变换等的Texture Array，二级线程管理机制以及与它们对应的shared+unified cache等缓冲体系。
　　4、负责完成fillrate过程以及输出最终画面的32个ROP单元阵列，以及对应L2 cache的4个64bit显存控制器MC（Memory Controller），负责视频回放及处理的PureVideo HD单元，以及全新的负责视频编码部分的NVENC。
　　5、根据功耗以及用户自定义负载需求实时调节GPU的GPU Boost功能，全新的TXAA以及抑制画面撕裂和顿挫的Adaptive VSync主动垂直同步技术。
　　6、单卡4屏输出以及单卡3屏3D Vision输出。

GTX680核心照片

　　Kepler构架与Fermi构架在宏观层面上非常接近，其改进主要集中在微观结构以及功能性层面，诸如ALU团簇的单元、Cache以及线程仲裁机制、调度器动作规则、动态频率调节体系以及单卡多屏输出等等。接下来，就让我们一起看一看GTX680都有哪些细节上的改进吧。

吸血大魔王 · 发表于 2012-3-31 14:52:05

● 这堂课叫“性能功耗比”　　纵观整个芯片，本次GTX680最首要的特色在于强调绝对性能的同时将性能功耗比的地位突出到了一个前所未有的高度。在提供强劲性能的同时尽一切可能控制芯片的功耗和发热，成了NVIDIA在Kepler构架中最首要的任务。
　　在GTX680芯片中，NVIDIA启用了TSMC全新的28nm HKMG（高介电金属栅极）工艺进行生产，TSMC的28nm HKMG工艺引入了诸多先进的制造方式以及技术，工艺进步所带来了更小的节点尺寸以及与之对应的更低的亚阈/阈值电压，不仅更好的控制了芯片的整体发热和功耗，更可让芯片面积得以大幅缩小。

TSMC 28nm Wafer

　　GTX680的默认电压仅为0.987V，这一数值极为接近TSMC 28nm时代的Vt。配合High-K（高介电常数）材料的引入，GateLast（后栅）处理，以及nMOS/pMOS分开处理的金属栅极，GTX680具备了极佳的漏电控制表现，这为其带来了很低的运行功耗及满载功耗，其设计TDP仅为195W，搭配双6pin供电接口即可满足超过1G的高频满载运行的需求。以其最终表现出来的绝对性能来衡量，GTX680的功耗表现可以说是空前的。

新工艺大幅降低了GTX680的发热

　　除了较低的运行功耗之外，GTX680常规使用甚至满载环境下“清凉”的温度表现也给我们留下了深刻的印象，与竞争对手大尺寸均热板的散热方案以及实际温度表现相比，GTX680以常规内嵌式热管的散热方案获得了比对手更好的温度和发热表现，这大大出乎了所有人的意料。

3扁平热管的常规散热解决方案

　　先进的工艺可以保证良好的静态待机以及运行功耗表现，但要想真正获得更高的性能功耗比，效率更高的构架逻辑结构设计是必不可少的。接下来，据让我们来看一看GTX680采用的Kepler构架在微观结构以及功能性方面都做出了哪些改进吧。

吸血大魔王 · 发表于 2012-3-31 14:52:29

● 再见了“分频君”　　在GTX680的诸多特性中，首先映入眼帘的同时也是最引人关注的地方，在于NVIDIA放弃了沿用长达6年之久的ALU分频方案。GTX680不再采用ALU Hot clock，而是回归到了ALU与整个核心同频的常规方案上。
　　分频设计对于ALU来说是一把双刃剑，它可以让NVIDIA以更少的运算资源总量来实现更大的吞吐，而更少的运算资源总量可以减轻对包括互联资源在内的很多周边资源造成的压迫，但由分频导致的过高的ALU运行频率也会给整个GPU芯片带来了极为沉重的负担。现代GPU的ALU及其相关部分所占的比例相当巨大，ALU的运行频率如果过高显然会更早的触碰到芯片所能够耐受的频率极限，这不仅会造就更高的局部发热从而大幅推升整个GPU的发热总量，还会影响其他不得不运行在较低频率上的流水线部件的性能。

ALU分频被弃用

　　通俗的说，过高的ALU分频频率让TMU以及ROP之类的单元不得不运行在“较低”的分频前频率上，这对于整个图形流水线的延迟平衡其实是极为不利的。事实上NVIDIA GPU在过去数代中一直都受到了来自Texture性能等方面的影响，而这其中有相当一部分原因来自其TMU较低的运行频率。在这种情况下，弃用分频技术来换取shader性能以外的提升就显得很自然了。

未采用ALU分频的GK104在各项性能参数上仍然高于GF110

　　通过启用同频方案，NVIDIA获得了比过去多80%的逻辑结构余量以及50%的单位频率功耗空间，对这部分资源的应用让GTX680获得了极其出色的性能功耗比，同时也有了更好的余量来进行ALU总量的释放。

吸血大魔王 · 发表于 2012-3-31 14:53:18

● 庞大的SMX以及更快速的cache　　SM是NVIDIA GPU的ALU团簇基本单元，在GTX680中SM部分的改进可谓翻天覆地，NVIDIA采用的全新的SMX单元彻底改变了传统的SM单元的内涵。
　　GTX680所采用的SMX单元与Fermi的SM单元在逻辑结构上十分近似，都拥有完整的几何前端，线程仲裁机制，ALU团簇，Texture Array以及unified cache/shared和Register。除了没有后端之外，可以说一个SM/SMX单元在结构上已经趋近等同于一颗标准GPU了。

GTX680逻辑构架

　　与Fermi的SM单元规模对应线程粒度单位warp（32 ALU VS 32 Thread）不同，GTX680的SMX单元急剧放大了ALU团簇的整体规模，其ALU总量从过去的32个增加到了192个。与此同时，SMX单元的线程仲裁管理机制也得到了放大。负责线程分派和发放管理的Warp Scheduler从过去的两个增加到了4个，与之对应的Dispatch Unit从过去的2个增加到了8个，Warp Scheduler与Dispatch Unit的比例提升到了1:2，这些举措可以有效的改善单元规模增大带来的线程分派及管理压力。

SMX单元结构

　　在放大ALU团簇以及线程仲裁机制的同时，NVIDIA还进一步放大了与ALU团簇对应的Register。根据NV提供的资料，GTX680中每个SMX的Register较之Fermi的SM放大了一倍，达到了65536X32bit的规模。
　　在Unified Cache体系方面，GTX680与传统的Fermi在结构上没有多大的差异，其L1/shared以及L2 cache的大小和比例均未发生变化，仍旧维持64K的L1/Shared以及128K/MC的L2尺寸。整个体系中最值得关注的变动来自L2 cache速度以及带宽的提升，NVIDIA称GTX680的L2 cache目前运行在分频状态下，默认运行频率是核心频率的一倍，这为GTX680提供了比过去大得多的L2带宽，这为通用计算性能以及Texture性能的提升创造了有利的条件。

更为强劲的SMX性能

　　更大的ALU规模、更多的线程仲裁机制以及更大的寄存器缓冲为SMX带来了全新的性能表现，新的逻辑设计让GTX680的运算单元拥有了2倍于Fermi的性能功耗比。但我们同时注意到NVIDIA公布的诸多数据与其极高的实际性能很难直接对应，包括线程粒度是否发生变化、half warp是否依旧存在、寄存器是否充足以及Instruction cache总线是否已经从L1中独立出来等问题NVIDIA均未予以正面回答，因此我们会保持对SMX单元以及整个GTX680 ISA细节的持续关注，并在后续为你带来更多专门的分析文章。

吸血大魔王 · 发表于 2012-3-31 14:53:53

● 第二代几何处理引擎　　在上一代的Fermi构架中，NVIDIA为每个SM都配备了完整的PolyMorph Engine（几何处理引擎），16个SM单元意味着Fermi拥有16个能够进行Tessellation处理的几何引擎。在GTX680中，由于SMX单元结构的巨变以及总量的减少，8个SMX单元理论上仅能对应8组几何引擎，因此NVIDIA对PolyMorph Engine进行了改进，使之能够在总量减少的前提下维持性能。

PolyMorph Engine 2.0以及线程仲裁机制

　　PolyMorph Engine 2.0引擎在结构上与PolyMorph Engine 1.0差异不大，均由Vertex Fetch、Tessellator、Viewport Transform、Setup以及Output单元构成。但在PolyMorph Engine 2.0引擎中，NVIDIA加大了Tessellator单元的规模，同时还借鉴了AMD在Cayman以及Tahiti中的经验，通过优化线程以及Stream流的方式进一步加强了PolyMorph Engine在低负载下的几何处理能力。

GTX680曲面细分性能

　　通过改进，PolyMorph Engine 2.0拥有了2倍于Fermi的单位性能，这使得GTX680在PolyMorph Engine数量减少一倍的前提下依旧维持了极为强劲的几何性能和高负载下较低的性能衰减，同时在低负载下的几何性能也变得更加抢眼。
　　对于PolyMorph Engine 2.0的改进，我们会在本次测试中进行专门的SubD11项目测试。

吸血大魔王 · 发表于 2012-3-31 14:54:43

● 黑科技的最深处：Scheduling过程　　在整个GTX680以及Kepler构架中，隐藏最深同时可能产生的影响也最为深远的改进，来自任务调度以及仲裁过程的巨大变化。
　　GPU的逻辑结构决定了它并不适合被用来执行关联度过高过深的条件分支过程，因此对于任务的关联性检查是整个GPU任务队列执行过程中一个非常重要的步骤。在以Fermi为代表的传统仲裁体系中，任务会在解码过程之后完成指令的关联性检查，如果指令存在超过一定限度的关联性，为了规避条件分支对性能产生的影响，这些指令会被重新打包以便ALU团簇进行吞吐。在完成这些关联性检查之后，明确执行方向的指令才会被送入流水线中进行执行。为了加快这一过程的速度，Fermi构架为这个过程提供了Multiport Post decode Queue以及对应Register的硬件支持。

Kepler构架与Fermi构架执行Scheduling过程的差异

　　在Kepler构架中，这一传统的过程发生了巨大的变化，NVIDIA称在Kepler中任务会在解码之前根据Sched.info进行选择，然后直接进行解码并被送入流水线中完成后续处理。整个关联性检查以及指令重组等过程被一个简单的Sched.info-select所取代。在该过程下，指令从解码到执行几乎没有延迟，整个流水线因此获得了极高的执行效率。
　　对于这一改进，我们的评价是“这完全是一个黑科技”。从过程来看，这一看似简单的过程实际上已经具备了初步的分支预测的特质，这较之Fermi构架“随机抽取方向然后一条路跑到黑”的分支论断有了长足的进步。将任务关联性检查提前到解码过程之前也极大地加大了流水线的执行密度，进而提升了整个GPU的单元复用率。但受限于NVIDIA公布技术细节方面的保留，我们目前还无法深入到这一改进的核心部分。所以，我们暂且将其归结到诸多提升GTX680性能但却未被公布的“黑科技”中的一个，并将对其保持持续的关注。

吸血大魔王 · 发表于 2012-3-31 14:55:28

● GPU Boost：单元复用率的好基友　　GTX680中引入的最具颠覆性的特性，来自GPU Boost技术带来的动态频率管理机制，它的出现彻底改变了人们对于性能及显卡使用方式的传统定义。
　　GPU Boost技术的核心内容，在于通过遍布全卡的数十个传感器实时收集数据，并根据这些数据及时掌握整卡的即时功耗状况，接下来根据当前功耗与设计TDP之前的差距，动态的调节GPU的运行频率，使其能够运行在更高的频率之上，以达到随时随地自动获取最大性能的目的。

GPU Boost可以充分利用实际功耗与TDP的差值空间

　　每一款不同的游戏程序/应用因为各自不同的编程特点，在实际运行中会令构架反映出不同的负载或者说GPU使用情况，这种GPU负载的不同，归根结底是GPU构架的单元复用率以及程序对硬件不同组元使用率差异造成的欠载所导致的。这些无法避免的欠载，会让GPU在绝大多数场合都不会运行在设计功耗数值之上。欠载以及未能让GPU运行在既定满载功耗这一现象本身，实际上就是GPU内部单元复用率不足的外在表现。
　　当构架设计完成之后，构架的诸如单元复用率之类的特性也就随之凝固，游戏程序及应用程序在编写完成之后也要面临对不同构架使用情况发生凝固的情况。既然我们无法改变构架的单元复用率，也无法适时修改程序对单元的使用情况，同时两者的矛盾已经已经被体现在了实际运行功耗与设计功耗之间的差异上，那么增大整个构架的运行频率，善加利用实际功耗与设计功耗之间的差值空间来获得更高的总执行能力，就成了提升性能以及解决单元复用率不足矛盾的最好办法了。

GPU Boost在应用程序中是实时调整的

　　GPU Boost技术所进行的动作，实际上是建立在性能与功耗平衡的基础之上的。当前频率下单元复用率不足会带来实际功耗与设计功耗之间的差异，可以被等效成频率的提升额度。所以GPU Boost可以以TDP为终点，根据游戏中瞬时单元复用率决定的欠载情况决定GPU的实时运行频率，让GPU能够在功耗一直维持在设计水平的前提下，实时的获得最强的游戏性能。
　　与此同时，GPU Boost对于频率的控制还具有反向性。当玩家们觉得当前的游戏帧数远远大于自己的需求时，也可以通过对帧数的限定来让GPU Boost达到节能的目的。因为构架的单元复用率凝固且时时刻监控，较低的帧数需求也就意味着较低的频率，因此GPU Boost可以根据玩家限定的低于最大构架性能的帧数来实时下调GPU的运行频率，并达到节能以及换取更佳功耗表现的目的。

GPU Boost动作记录

　　我们必须强调的一点——GPU Boost并不是超频，起码不是单纯意义上的超频。传统意义上的超频是频率动作的终点，一旦超频完成，GPU频率将不会再根据任何情况发生变动。而GPU Boost对频率的调节是建立在实时真实功耗与TDP差值的基础之上的，它既可以让GPU充分利用功耗差值空间来运行在比超频频率更高的频率之上，又可以通过限定帧数需求来让GPU运行在更低的频率水平上。因此GPU Boost技术出现之后的超频，变成了频率控制的起点。
　　利用功耗空间动态调节频率来解决GPU内部单元复用率不足的矛盾，同时还可以反向的利用限定性能上限的方式来换取更好的功耗发热表现，这些特性让GPU Boost成了一个划时代的技术，它是目前为止我们所见过的最具想象力，同时也是最直接的综合性能/功耗管理手段。相信在未来的日子里，我们将会见到更多类似的通过外部努力来解决GPU单元复用率不足矛盾的方案出现。有关GPU Boost技术的更多细节以及重要意义，我们将会在稍后为您奉上专门的介绍文章。

吸血大魔王 · 发表于 2012-3-31 14:55:55

● 主动式垂直同步：拒绝画面撕裂　　Adaptive VSync是NVIDIA在GTX680中引入的另一个重要新功能。其最大的意义，在于改变传统垂直同步分段式的帧数管理模式，用更加平滑的帧数曲线来最大限度的避免画面撕裂的情况发生。

传统的垂直同步依旧会带来画面撕裂和顿挫的问题

　　在传统的垂直同步设定中，帧数一般会被机械的划分成30以及60帧两档，当游戏帧数大于60帧时，垂直同步程序会将帧数限定在60帧，而当游戏实际帧数跌落到60帧以内时，垂直同步会将帧数限定成30帧。巨大的帧数落差不仅会给玩家们的游戏过程带来明显的顿挫感，同时还会导致画面撕裂等问题的出现，这不仅影响了游戏过程本身，更与垂直同步技术本身消除画面撕裂的初衷相悖。

GTX680的Adaptive VSync技术

　　在Adaptive VSync中，NVIDIA打破了传统垂直同步技术对帧数下限的限制，当游戏帧数低于60帧之后，Adaptive VSync将会尽量让帧数维持在当前水平，而不是像过去那样直接进入30帧档位。而当游戏帧数大于60帧时，传统的垂直同步机制依旧会发挥作用，游戏帧数依旧会如果去那样被限定在60帧上。

Adaptive VSync选单

　　相比与传统的垂直同步，Adaptive VSync技术能够带来更加平滑的帧数体验，避免帧数突然暴跌带来的最小帧问题，提升整个游戏的流畅度体验。在此基础上，Adaptive VSync并没有干扰帧数大于60时垂直同步机制的正常工作，因此从深层意义上来讲，Adaptive VSync才是真正实现垂直同步初衷的帧数控制机制。

吸血大魔王 · 发表于 2012-3-31 14:56:21

● 全新边缘检查抗锯齿：TXAA　　抗锯齿技术一直都是平滑物体边缘，提升模型精细度以及视觉美感的重要手段。从最开始的超级采样，到后来的多重采样以及CSAA等极富特色的采样形式，抗锯齿一直都是显卡发展重要的组成部分。

FXAA抗锯齿模式

　　伴随着DirectX 11的出现，GPU的通用计算性能被越来越多的直接应用在了图形计算过程中，这其中也包含了抗锯齿过程。使用Compute Shader带来的A-buffer等全新特性，边缘检查为主的MLAA以及FXAA这两种全新的抗锯齿形式获得了很好的接受度和支持度。而此次在GTX680中，NVIDIA再次为我们带来了全新的基于边缘检查的抗锯齿模式——TXAA。

NoAA图像质量

TXAA图像质量

　　TXAA作为改进型的新一代边缘检测型抗锯齿不仅改善了传统的边缘检测型抗锯齿所导致的材质模糊问题，同时还为我们带来了质量极高的细小多边形以及线框部位的AA表现。

8X MSAA图像质量

与之对比的TXAA图像质量

　　按照NVIDIA公布的数据，TXAA能够以2MSAA的性能代价实现8MSAA的边缘抗锯齿质量，以4MSAA的性能代价实现大幅超越8MSAA的抗锯齿质量。TXAA的接受度相当高，已有包括EPIC以及Crytek在内的多家旗舰级游戏引擎供应商宣布将在旗下的引擎中对其进行支持。

吸血大魔王 · 发表于 2012-3-31 14:56:51

● 解除绑定，Bindless Texture　　在GTX680中，我们注意到了一个全新的来自材质与shader搭配的特性，那就是Bindless Texture——低shader绑定限制材质。
　　我们知道在图形处理过程中，所有场景及物体表面的颜色细节都是由Texture和shader共同完成的，Texture负责快速的完成大面积的颜色表达，而shader则负责局部正确颜色表现的修饰过程。值得注意的是，传统的Texture与shader搭配修饰过程存在绑定（Bind）限制，一组shader code只能同时对应最多128组Texture。

Bindless Texture操作特性

　　在GTX680的Kepler构架中，NVIDIA取消了shader code与Texture之间的绑定限制，新的Bindless Texture规则允许一组shader code同时对应超过100万组Texture。这不仅极具提升了可被同时进行shader处理的Texture的数量，等效减少shader被重复执行的几率，大幅减少CPU以及GPU的执行线程需求以及执行过程，同时还能带来更多样化的Texture应用。

Bindless Texture能够大幅减少操作过程并提升效率

　　Bindless Texture可以带来很多非常具有想象力的应用场合，比如搭配Compute Shader的树状结构来实现大跨度的多材质单shader复制处理，或者结合Gather/Scatter指令更加快速的实现简单shader对应复杂材质等等。Bindless Texture可以加速许多场合的应用速度，在未来的图形处理过程中将会扮演重要的角色。

吸血大魔王 · 发表于 2012-3-31 14:57:14

● 所有人都可以有单卡多屏了　　长期以来，NVIDIA对单卡多屏的支持一直都不是十分的积极。尽管这其中有传统构架的单芯显卡的确不具备多屏大分辨率流畅渲染的能力，即便具备多屏输出能力也无法用来顺畅地运行游戏，但其保守的做法并未得到所有用户的理解。
　　在全新的GTX680中，NVIDIA终于兑现了自己的承诺——当单芯显卡在3840*1200甚至更高分辨率环境下具备流畅运行游戏的能力时，NVIDIA将会为玩家们提供对应的单卡三屏甚至以上级别的多屏输出支持和立体视觉解决方案。于是，Single Card 3D Vision Surround来了。

Single Card 3D Vision Surround可以实现单卡四屏输出

　　在GTX680中，NVIDIA提供了完整的DVI、HDMI1.4a以及DP1.2接口，提供了单卡3840X2160X60Hz的4K分辨率级显示器的支持，允许单块显卡同时输出4个显示器，其中包含3个3D Vision输出以及一个辅助显示输出。

Single Card 3D Vision Surround可以实现单卡三屏3D输出

　　单卡三屏以及单卡三屏3D输出的实现，让N卡玩家们终于获得了期盼已久的较低成本多屏输出解决方案。目前的GTX680不仅可以提供比过去更加全面的多屏输出选择，更可以以比过去低非常非常多的功耗来完成多屏输出和3D Vision多屏输出。

吸血大魔王 · 发表于 2012-3-31 14:57:47

● NVENC：硬件H264编码引擎　　在近3个月前发布的Tahiti构架中，AMD首次引入了针对视频的硬件编码处理单元VCE，这套单元可以以纯硬件的形式完成高清视频的编码过程。而Intel早在Sandy Bridge中就已经引入了类似的电路。如今，NVIDIA在GTX680中同样加入了类似的针对性解决机制——NVENC。

NVENC特性

　　能够提供了一组专门的逻辑电路设计，它可以大大加快包括H.264在内的多种高清视频格式的编码和转码速度。按照NVIDIA提供的数据，NVENC可以4~8倍于“real-time”的编码速度，如果以24帧的播放速率作为real-time的标准，则NVENC可以实现远大于60帧的高清视频实时编码过程。

MediaEspresso软件界面

　　除了提供更快的编码及转码速度之外，NVENC还提供了更好的性能瓦特比。它可以以十分之一的功耗实现与软件编码过程相同的性能，这从侧面进一步契合和呼应了Kepler构架以及GTX680着重强调性能瓦特比的特点。
　　目前，由Cyberlink出品的MediaEspresso软件已经率先提供了对NVENC的支持，用户们可以在Kepler构架以及GTX680发布后第一时间体验到NVENC技术带来的好处。

吸血大魔王 · 发表于 2012-3-31 14:58:40

● GTX680显卡拆解赏析　　与前代的GTX580以及竞争对手的HD7970相比，GTX680从优秀的核心设计中获得了相当大的成本优势，高能低耗的核心对PCB的周边需求相对很低，因此GTX680的PCB设计更加注重成本考量。

GTX680 公版PCB方案

GTX680核心

GTX680供电部分

GTX680采用的2相显存供电

GTX680采用的4相核心供电

海力士提供的0.3ns高速显存颗粒

GTX680供电接口方案

GTX680散热方案

吸血大魔王 · 发表于 2012-3-31 14:59:07

● 送测产品展示：影驰

影驰GTX680显卡

影驰GTX680 显卡背面

影驰GTX680接口

影驰GTX680显卡

影驰GTX680附件

本次送测的影驰GTX680为公版产品，影驰非公版GTX680的测试我们将在稍后为你奉上。

吸血大魔王 · 发表于 2012-3-31 14:59:30

● 送测产品展示：索泰

索泰GTX680显卡

索泰GTX680显卡附件

索泰GTX680

索泰GTX680显卡背面

索泰GTX680显卡接口

吸血大魔王 · 发表于 2012-3-31 14:59:57

● 送测产品展示：七彩虹

七彩虹GTX680显卡

七彩虹GTX680正面

七彩虹GTX680背面

七彩虹GTX680

此次送测的七彩虹GTX680为公版产品，非公版的iGame GTX680的测试我们将在稍后为你奉上。

吸血大魔王 · 发表于 2012-3-31 15:01:07

● 送测产品展示：Inno3D

Inno 3D GTX680

Inno 3D GTX680背面

Inno 3D GTX680接口

吸血大魔王 · 发表于 2012-3-31 15:01:43

● 更多品牌送测产品展示

华硕GTX680

七彩虹 iGame GTX680

耕昇GTX680关羽版

技嘉 GTX680

微星 GTX680

吸血大魔王 · 发表于 2012-3-31 15:02:11

● 测试平台及测试项目简介 [size=+0][size=+0]　　性能测试使用的硬件平台由Intel Core i7-3960X、X79 Chipset和4GB*4四通道DDR3-1600内存构成。细节及软件环境设定见下表：[size=+0]
[size=+0]
[size=+0]测试平台硬件
中央处理器
Intel Core i7-3960X
（6核 / 12线程 / 100MHz*33 /
15MB L3 Cache ）
散热器
Intel RTS2011LC
（原厂水冷散热器 / 选配件）
内存模组
Samsung 黑武士 DDR3-1600 4GB
（SPD:9-9-9-24-1T）
主板
ASUS Rampage IV Extreme
（Intel X79 Chipset）
硬盘
Hitachi 1T
（1TB / 7200RPM / 16M缓存 /
50GB NTFS系统）
电源供应器
NERMAX 白金冰核 1500W
（CSCI Platinum 80Plus / 1500W）
显示器
DELL UltraSharp 3008WFP
（30英寸LCD / 2560*1600分辨率）

[size=+0]　　为保证系统平台具有最佳的稳定性，此次硬件评测中所使用的操作系统均为Microsoft Windows 7 正版授权产品。使用Windows 7正版软件能够获得最好的兼容性以及系统升级更新服务。

[size=+0]

　　用户在体验或购买安装Windows 7的操作系统时请认准所装系统是否已经获得正版授权许可！未经授权的非正版软件将无法获得包括更新等功能在内的Windows 7服务。

操作系统及驱动

	操作系统
	Microsoft Windows 7 Ultimate RTM SP1
	（64bit / 版本号7601）
	主板芯片组驱动
	Intel Chipset Device Software for Win7
	（WHQL / 版本号 9.2.3.1022）

	AMD 显卡驱动
	AMD Catalsyt
	（WHQL / 版本号 12.2）
	NVIDIA 显卡驱动
	NVIDIA Forceware
	（Beta / 版本号 300.99）
	[size=+0]桌面环境[size=+0]
	*25601600_32bit 60Hz**

[size=+0]　　各类合成测试软件和直接测速软件都用得分来衡量性能，数值越高越好，以时间计算的几款测试软件则是用时越少越好。由于是芯片级首测，因此我们将所有参测显卡的频率统一调节成了公版频率。

单卡卡皇NVIDIA GTX680性能全面测试

浏览过的版块

摄影爱好者

论坛顶梁柱

传说只有读到博士后的人才可拥有这枚勋章