论坛   IT娱乐新视界   【官方评测】领先A卡强项达50% 卡皇GTX480全球首测
返回列表
123下一页
查看: 5355|回复: 49
收起左侧

【官方评测】领先A卡强项达50% 卡皇GTX480全球首测

[复制链接]

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

发表于 2010-3-27 17:58:07 | 显示全部楼层 |阅读模式

NVIDIA首款DX11显卡 GTX480诞生


        Fermi多少人为之动心,GF100多少人为之欢呼雀跃,GeForce GTX 480多少人梦想拥有。从Fermi架构诞生预示着NVIDIA图形处理核心走进新纪元,从针对民用级消费产品研发代号GF100的确定,从GeForce GTX 400系列确定型号到3月27日正式发布,NVIDIA首款DirectX 11重量级产品问世。
        NVIDIA从G80时代确定了自己在DirectX 10领域的霸主地位,作为竞争对手的AMD虽然苦苦追赶,但是依然无法超越G80架构产品。卧薪尝胆尽3年后,AMD于2009年9月抢先发布全球首款DirectX 11图形核心RV870,即Radeon HD 5870。正所谓无巧不成书,NVIDIA领先AMD半年推出DirectX 10产品,而AMD则以领先NVIDIA半年推出DirectX 11产品,虽然在在时间点上有所巧合,但是在事件结果上却迥然不同。Radeon HD 2900 XT作为第一款AMD DirecX 10产品,虽然相较NVIDI的GeForce 8800系列晚出半年理应更强,但事与愿违在实际应用环境中劣势一直延续至Radeon HD 5870才得以翻盘。
        反观此次NVIDIA在首款DirectX 11产品GeForce GTX 480中,虽然晚于Radeon HD 5870,但无论在架构、性能还是功能上均想必自己上一代产品有了质的飞跃,相比对手的同一代产品本文将会做一个全面解析。

        GeForce GTX 400系列是NVIDIA推出的第一批DirectX 11产品,同时也是本代产品的顶级系列,此次3月27日的全球发布仪式中GeForce GTX 480和GeForce GTX 470首先进入市场。且不论二者价格定位,就型号而言不难看出是针对对手AMD的Radeon HD 5870和Radeon HD 5850两款产品下面,就让我们先了解一下现阶段NVIDIA和AMD在DirectX 11高端系列产品中的规格:


        通过上图产品硬件规格表对比不难看出,GeForce GTX 400系列是目前单GPU产品中拥有最大显存容量、晶体管数量最多的产品,这也意味着GeForce GTX 400系列将会有着骄人能力。值得一提的是,基于Fermi架构的GeForce GTX 400系列产品不仅仅是在3D功能方面有了质的飞跃,同时在GPU通用计算这方面Fermi架构想必上一代有了重大革新,本文架构剖析部分将会进行详细阐述,性能部分也将会在后文有全面、详细的测试。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:58:23 | 显示全部楼层
最强DX11单卡诞生 米人装机要“费米”
        在AMD推出Radeon HD 5000系列后,想必全球用户都在等待NVIDIA接下来的动作,无论是N饭、还是A饭、还是更多中立的用户,不过让人较为失望的是一天天的过去GeForce下一代产品仅是网上小道消息的只言片语。有传言是台积电生产力不行、有传言Fermi架构图形核心初期主要供应Tesla、有传言Fermi架构图形核心设计有缺陷不断Debug中,不过无论怎样,经过半年的等待我们终于迎来的GeForce GTX 480系列,而且值得一提的是取失望而代之的兴奋弥漫在广大的DIY爱好者中。


登陆本站的GeForce GTX 480 3-Way SLI平台

        众所周知,此次NVIDIA在GeForce GTX 400系列产品发布前对其信息保密程度史无前例的严格,笔者也仅是提前9天才真正看到这款神秘且诱人的“新品”,这是GeForce GTX 480初达本站笔者用相机记录下的平台照。

        ● 言归正传 了解Fermi架构GF100图形核心

        我们知道全规格Fermi架构产品拥有512 CUDA Cores,而作为顶级的单芯产品GeForce GTX 480并没有标配全规格图形处理核心,而是缩减了2组SM后得到核心,这是让笔者和众多消费者没有想到的。不过笔者分析,GeForce GTX 480标配非全规格图形核心的原因主要有三:其一、该核心足以满足用户需求,同时占压竞争对手顶级产品;其二、处于功耗以及成本方面的综合考虑;其三、提高GF100图形核心良率。当然这些仅是笔者个人猜测,不代表本站和NVIDIA官方意见,但无论怎样GeForce GTX 480的发布确实对图形核心发展有着重要的意义。


基于40nm工艺的GF100-375-A3核心

        GeForce GTX 480标配的GF100-375-A3核心是由台积电(TSMC)采用40nm工艺制造,其共有32亿晶体管,是目前最庞大的图形处理核心。用于GeForce GTX 480的GF100核心拥有480个流处理器、60个纹理单元、48个光栅处理器,同时标配384bit显存控制器。

        Fermi架构的GF100芯片相对于早期G80架构(G80架构影响了G8X、G9X和G200架构设计),除了常规的流处理器数量等参数升级外,Fermi架构相对G80架构做了重大调整,例如在Cache、SM架构等等方面做了改革,目的是让GF100也行核心适应现在甚至未来的用户应用需求。例如,Fermi架构图形核心引入了真正可读写L1/L2缓存,新增了Polymorph Engines和Raster Engines引擎等。

        有关Fermi架构的深度解析在本文中段会有详细介绍,在此不赘述。


专版GPU-Z软件识别情况

        最新版的GPU-Z 0.3.9还无法正确识别GeForce GTX 400系列,不过使用NVIDIA官方提供的在GPU-Z 0.3.9基础上升级而来的GPU-Z 0.3.9能够完全正确识别硬件信息。

        通过软件截图我们能够看到GF100核心采用40nm工艺,核心拥有32亿晶体管,软件识别与此前所有渠道传来的30亿晶体管数量有2亿晶体管差距,本文将根据GPU-Z识别情况介绍晶体管数量(毕竟本软件是由NVIDIA官方提供)。

        GF100-375核心拥有480 SPs、48 ROPs和384bit显存位宽,公版产品频率设定为700MHz/1401MHz/3696MHz,核心与Shader比为1:2。在GPU通用计算能力方面GPU-Z也做了功能识别,GF100图形核心支持GPU-Z软件能够识别的所有功能,OpenCL、CUDA、PhysX和DirectCompute 5.0。


显卡搭配12颗SAMSUNG K4G10325FE-HC04颗粒

        GeForce GTX 480标配了12颗规格为32M*32bit的SAMSUNG K4G10325F3-HC04颗粒,构成384bit/1536MB的组合,默认频率为3696MHz。在显存频率上,虽然GeForce GTX 480不及Radeon HD 5800系列产品,但是384bit高显存位宽弥补频率上带来的显存带宽缺失,同时也有效的控制了高频带来的高功耗、高发热量问题。

   
PCB识别情况

        在显卡PCB上, 我们能够看到GeForce GTX 480使用了NVIDIA针对其独立设计的P1022型号PCB,同时PCBI-Express金手指前端还能看到RoHS标识,它意味着NVIDIA十分注重绿色环保,在PCB制造上做到无铅化。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:58:41 | 显示全部楼层

公版GTX480金属质感 全新散热设计

        每一代NVIDIA新产品的公版设计都会给我们在外观视觉上带来新的冲击力,这也是笔者每次迫不及待拿到新产品把玩的一个重要原因之一。随着图形核心功能、性能上的大幅增长,伴之而来的高功耗、高发热量迫使高端产品无一例外的都将双超设计加入到产品中,此次公版GeForce GTX 480也不例外。

        虽然GF100图形核心使用目前最先进的40nm制造工艺,但对于拥有32亿晶体管的它来说温度还是十分头疼的问题,这也导致其无法照搬GeForce GTX 200系列的散热器设计。


公版GeForce GTX 480

        笔者第一次触及GeForce GTX 480时,被正面的硕大铜制散热片吸引,毫无疑问这是为了增加显卡散热器效率而设计,好处一增加散热器散热面积,好处二确保散热器内部风道形成。但是由此带来的外观变化笔者也非常满意,增加顶级产品的尊贵质感。


公版GeForce GTX 480

        霸气的GeForce GTX 480“直立身高”10.5吋,与GeForce GTX 285、Radeon HD 5870同为10.5吋,约为26.7cm。通过这张图片我们能够看到散热器风扇在PCB上预留了进风口,大幅增加了散热器进风效率,同时弥补显卡因正面进风受阻后带来的非正常散热情况。


公版GeForce GTX 480


公版GeForce GTX 480


公版GeForce GTX 480

      上面是GeForce GTX 480产品拆解前外观各角度特写,“它”是否能俘虏你的心?


公版GeForce GTX 480散热器热管设计

        虽然在高端公版显卡散热器中引入热管设计并非稀罕事,但是GeForce GTX 480这种裸露于散热器导风罩之外,同时NVIDIA公版产品热管高于PCB高度的设计尚属第一次。不过这样的设计也让我们清楚看到,散热器采用了5热管设计,其中最右边的热管为了避开SLI桥接器隐藏在导风罩中。


视频信号接口采用DVI *2 + Mini HDMI组合

        公版GeForce GTX 480的视频型号输出接口采用了双DVI搭配Mini HDMI的组合,其中每个DVI均能输出Dual-Link信号,确保高端用户对2560*1600分辨率的使用。而HDMI接口的引入更多的是满足高清用户,以及满足越来越普及的高清显示终端设备。不过由于考虑到单槽位接口间距和散热器出风口大小的综合衡量后,NVIDIA工程师将Mini HDMI引入到产品中,从而有效的在间距、功能以及散热器效能上找到了平衡点。


双DVI接口没有采用屏蔽设计

        公版产品用料不计成本我们早习以为常,不过拆解产品笔者发现双DVI接口并没有采用带屏蔽接插件模组,让笔者有点出乎意料。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:58:57 | 显示全部楼层

暴力拆解GTX480 展示最真实的它

        接下来的环节将是拆解GeForce GTX 480,根据笔者以往的拆解经验,尤其是在高端产品中数道卡口、螺丝总是让人头疼,例如双PCB版本的GeForce GTX 295和带背板的GeForce GTX 280。虽然在拆解前笔者做好的充分心理准备,但是正式拆解过程中发现事实并非如此。


首先被拆掉的导风罩

   
导风罩正反特写

        此次GeForce GTX 480公版散热器产品导风罩完全采用卡口无螺丝设计,这样有利于产品拆装,起码对于经常拆装显卡的我来说,无疑是一个利好设计。


无导风罩GeForce GTX 480外观

   
散热器风扇及核心散热器特写

        没有导风罩的遮掩下,我们能够清楚看到整个散热器散热系统的风道设计,由离心式风扇吸入的冷空气吹过供电散热模块和核心散热器,最终在挡板尾部将热空气排出。

   
散热器骨架

   
散热器骨架编号及卡口设计

        散热器的骨架部件采用一体化设计,其不仅是散热器的骨架,同时还是显存、供电模块等功能性电气件的散热鳍,当然还有一个用处就是PCB加固,避免高端显卡受重力因素导致PCB弯曲带来的产品不正常工作情况。


定制的散热器骨架

        散热器骨架真针对GeForce GTX 480定制,其能在避开凸出电气件同时确保供电模组和显存的散热。


完全拆解后的各部件

        经过显卡的简单拆解我们到,GeForce GTX 480由产品PCB、多功能散热器骨架、离心式风扇、裸露式核心散热模块以及导风罩组成。


PCB进风口

        在PCB正面核心供电模组右侧,我们能够看到两个散热器入风口,它的功效前文已经提及过,增大散热器进风量,同时有效解决单面进风口受阻后带来的散热器工作不正常情况。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:59:11 | 显示全部楼层

独立核心散热器 镇压32亿晶体管

        纵然GF100采用了目前最为先进的40nm工艺设计,但是为了让GF100拥有更高的硬件规格和更多的功能,大量堆积晶体管成为唯一解决办法。不过这样做的结果就是高功耗和高发热量,高功耗可以通过加大外接供电,高发热量仅有优化现有散热器效能。


核心散热模块正面特写


核心散热模块背面特写

        核心散热模块采用铜加铝的大众化组合,顶部散热片、热管采用铜材设计,而鳍片和吸热底采用铝材。值得一提核心散热模块整体采用高档镀镍工艺,从而杜绝散热器氧化导致的散热效能下降。


五热管设计


精致的散热鳍片及扣Fin工艺


热管作为吸热底直接接触核心

        核心散热器采用5热管设计,高效转移核心产生的高热量,同时扣Fin工艺精湛的铝鳍能够快速在冷风作用下将自身吸收的热量释放。随着散热器工艺设计的提升,CPU散热器越来越多的采用热管直接接触核心设计,这样的好处是零距离接触热管,其次热管导热更快,弊端就是要求吸热底研磨要平

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:59:27 | 显示全部楼层

6+2相供电 协助GTX480全速运转

         要让拥有32亿晶体管的GF100核心和12颗GDDR5显存颗粒正常工作,庞大的供电模组必不可缺,GeForce GTX 480采用了6+2相设计,同时每相供电模组的用料也十分豪华。


6+2相供电设计


供电模组区域

        显卡供电模组区域被安置在PCB正面右侧,由于PCB设计有冷风入口,所以供电滤波模组和外界供电模组被分置在入风口两侧。


PCB背部的核心及显存供电模组电气件

       在核心、显存每相供电的PCB正背面,我们还看到钽电容也来助阵。

   
紧邻的2相核心供电模组

        核心供电模组共有6相,其中近邻两辆一组。每相核心供电均采用全屏蔽铁素体电感、贴片固态电容、钽电容、优质Mosfet等其他电气件组成了豪华核心供电军团。


2相显存供电模组

        显存供电依然豪华,全屏蔽铁素电感、电容、Mosft和背面的钽电容样样不缺,这也最大程度上保证了1536MB的GDDR5高速显存运作。


8pin + 6pin外接供电

        公版GeForce GTX 480采用了8pin + 6pin的外接供电设计,如果算上PCI-Express提供的75w,产品将获得300w的供电量。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:59:42 | 显示全部楼层

亲民型高端作品 GTX470全面解析

        每次高端新品发布最受关注的是顶级型号,但最热卖的却是顶级系列中最低端的型号,这样的规律也符合“高端打形象、低端走量”的市场规则。

        GeForce GTX 480目前尚无人民币定价,美元定价499美金,按1:6.8的汇率计算GeForce GTX480将是3400元左右;而定价349美元的GeForce GTX 470将会使2400元左右。相差一千元的价格,即使对于高端产品来说也是不小的数目,一般理智的消费者都会选择高端系列中的低端型号,即本次发布的GeForce GTX 470笔者认为肯定会大卖、特卖。


公版GeForce GTX 470

        本次GeForce GTX 400系列发布,收到了七彩虹送测的GeForce GTX 470公版产品。与以往顶级系列产品发布一样,各品牌第一批产品多是纯公版产品,仅是不同品牌间Logo贴纸的区别,此款七彩虹GeForce GTX 470亦是如此。


40nm工艺GF10-275-A3

        GeForce GTX 470标配的GF100-275-A3核心是由台积电(TSMC)采用40nm工艺制造,其共有32亿晶体管,是目前最庞大的图形处理核心。用于GeForce GTX 470的GF100核心拥有448个流处理器、56个纹理单元、40个光栅处理器,同时标配384bit显存控制器。

        与GeForce GTX 480搭载的GF100-375核心一样,GeForce GTX 470的GF100-275同时同一核心经过不同规格屏蔽后衍生出来的产品。其能够完美支持DirectX 11 API和CUDA 3.0,当然Fermi架构的重要技术革新其能得以全部传承。


专版GPU-Z软件识别情况

        由于是NVIDIA提供的专用GPU-Z版本,所以GeForce GTX 470的各项参数也能够正确显示。

        通过软件截图我们能够看到GF100核心采用40nm工艺,核心拥有32亿晶体管。GF100-325核心拥有420 SPs、40 ROPs和384bit显存位宽,公版产品频率设定为607MHz/1215MHz/3398MHz,核心与Shader比为1:2。在GPU通用计算能力方面GPU-Z也做了功能识别,GF100图形核心支持GPU-Z软件能够识别的所有功能,OpenCL、CUDA、PhysX和DirectCompute 5.0。(七彩虹的GeForce GTX 470采用非公版频率设定软件中的625MHz/1250MHz/3200MHz)


搭载10颗SAMSUNG K4G10325FE-HC05

        GeForce GTX 470标配了10颗规格为32M*32bit的SAMSUNG K4G10325F3-HC05颗粒,构成320bit/1280MB的组合,默认频率为3398MHz。

   
PCB识别情况

        在显卡PCB上, 我们能够看到GeForce GTX 470使用了NVIDIA针对其独立设计的P1025型号PCB,同时PCBI-Express金手指前端还能看到RoHS标识,它意味着NVIDIA十分注重绿色环保,在PCB制造上做到无铅化。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 17:59:59 | 显示全部楼层

4+1相经济实惠供电组合 助力GTX470

        作为顶级系列的低端型号产品,除了要出众性能外,成本控制也是非常重要的环节,毕竟这个型号的产品将是芯片级厂商主力重推的性能级产品。


视频型号输出接口

        视频信号接口方面,GeForce GTX 470与GeForce GTX 480一样,同样采用双DVI搭配Mini HDMI的组合。不过值得一提的是,GeForce GTX 470公版产品DVI接口采用屏蔽设计,从而有效保证信号输出的“纯净”度。


4+1相供电模组设计

        GeForce GTX 470的供电部分全部被设计在PCB正面的右侧,核心供电模组与显存供电模组位于上下两边,右上角为两个6pin外接供电,搭配PCI-Express提供的75w,共能实现225w的电能供应。


核心采用4相供电模组

        4相核心供电采用铁素体屏蔽式电感、优质Mosfet和固态电容组成。


显存采用1相供电设计

        1相显存供电采用1个屏蔽式电感、2个固态电容和3个Mosfet的组合。


PCB背部供电模组

        除了PCB正面我们能够看到的供电模组电气件外,PCB背面还有核心、显存4+1相供电的钽电容。


6pin + 6pin外接供电

        核心硬件规格、显存硬件规格和频率上的整体下调,从而也降低了GeForce GTX 470的整卡功耗,所以GeForce GTX 470仅需2个6pin外接供电即可。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:00:15 | 显示全部楼层

揭开GTX470神秘“面纱” 探秘物理设计

        GeForce GTX 470的拆解过程在本环节揭秘。与GeForce GTX 480的拆解一样,相对以往高端系列而言要较为轻松,尤其是卡口式导风罩的引入。


GeForce GTX 470拆除导风罩

   
导风罩正反特写

        拆掉导风罩后,GeForce GTX 470的大体散热系统展现在我们面前,虽然使用的配件都是针对两款产品不同设计,但是散热原理完全相同。


无导风罩GeForce GTX 470外观

   
散热器风扇及核心散热器特写

        散热系统将冷空气从导风罩及PCB两个入口吸入,在导风罩作用下为供电模组、显存和核心散热器进行热交换动作,最后热空气从后挡板的预留出风口导出。


定制的散热器骨架

        散热器骨架真针对GeForce GTX 480定制,其能在避开凸出电气件同时确保供电模组和显存的散热。


完全拆解后的GeForce GTX 470

        经过显卡的简单拆解我们到,GeForce GTX 470由产品PCB、多功能散热器骨架、离心式风扇、裸露式核心散热模块以及导风罩组成。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:00:31 | 显示全部楼层

麻雀小五脏全 GTX470同样5热管

        GeForce GTX 470无论在性能、做工、电气件搭配上都低于GeForce GTX 480一档,但是在散热系统上却没有半点马虎,GeForce GTX 470核心散热器同样采用采用了具备5热管的产品。

   
核心散热器及散热器骨架编号

        我们可以看到核心散热器和散热器骨架上的产品编号。


核心散热器

        GeForce GTX 470核心独立散热器,由吸热底、铝鳍及热管构成,其中5跟热管起到吸热和导热的作用,高密铝鳍起到散热作用。


核心散热器背部特写


精湛的扣Fin工艺


5热管设计

        核心散热器采用5热管设计,高效转移核心产生的高热量,同时扣Fin工艺精湛的铝鳍能够快速在冷风作用下将自身吸收的热量释放。随着散热器工艺设计的提升,CPU散热器越来越多的采用热管直接接触核心设计,这样的好处是零距离接触热管,其次热管导热更快,弊端就是要求吸热底研磨要平。


散热器顶端设有防共振胶条

        值得一提的是,在散热器顶端笔者发现了3个胶条,笔者分析这是用于避免散热器导风罩和核心散热器由于整机震动产品共振。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:00:46 | 显示全部楼层

看N卡和A卡高端 了解10.5和9.5的故事

        在Radeon HD 5800系列发布以前,无论AMD还是NVIDIA多会将顶级系列同核心产品的PCB设计为等长,例如Radeon HD 4800系列、例如GeForce GTX 200系列等。不过在Radeon HD 5800系列产品上,虽然Radeon HD 5870和Radeon HD 5850同为RV870核心,但是Radeon HD 5870采用10.5吋设计,这点与以往顶级系列产品尺寸相比不变。不过在Radeon HD 5850产品上,却重新设计了PCB为9.5吋,这也许是出于更合理的成本因素。

        巧合的是,在GeForce GTX 400系列发布上,GeForce GTX 400系列与Radeon HD 5800系列一样,顶级单芯产品PCB尺寸为10.5吋,次顶级单芯产品PCB为9.5吋。


GeForce GTX 400系列与Radeon HD 5800系列长度对比

        从图中的对比不难看出,两家顶级系列产品的顶级型号和次顶级型号PCB间的差别,这就是10.5和9.5之间的故事。


GeForce GTX 480(上)和GeForce GTX 470(下)长度对比

        GeForce GTX 480和GeForce GTX 470的PCB对比照。


GeForce GTX 470(左)和GeForce GTX 480(右)供电对比

        供电模组设计及用料方面,GeForce GTX 480毋庸置疑的高处一个档次。


GeForce GTX 470(左)和GeForce GTX 480(右)入风口对比


        GeForce GTX 480和GeForce GTX 470都有入风预留口,不过位置和朝向不太相同,这主要是出于PCB设计上的更合理原因所致。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:01:09 | 显示全部楼层

GTX480/GTX470身份亮相 蓄势待发

        NVIDIA下一代图形核心以Fermi作为代号,而实际产品型号一直被广大网友猜测为GeForce GTX 300系列,最顶级产品将会叫做GeForce GTX 380。会有这样的猜测,主要是根据NVIDIA以往产品的命名规则而得。不过遗憾的是,这次NVIDIA并没有按套路出牌,基于Fermi图形核心的GeForce顶级系列产品命名为GeForce GTX 480和GeForce GTX 470。

        关于GeForce GTX 400系列产品性能众说纷纭,有说能与Radeon HD 5970抗衡,有说比Radeon HD 5870强30%,不过无论怎样笔者分析,既然已经比对手晚出半年之久,强是理所当然的,但强多少是用户和NVIDIA都非常关心的。

        我们知道,在核心架构及规格确定的前提下,频率是最直接影响性能的参数,但同时频率的高低同时影响产品功耗及温度,最终影响产品返修率。为了达到稳胜前提下,又能保证功耗、温度及返修率的平衡性,NVIDIA目前还没有最终确定GeForce GTX 480和GeForce GTX 470频率,甚至有消息称GeForce GTX 470的频率将在即将开展的CeBIT 2010上才公布,足见NVIDIA的谨慎性。

        ● 核心架构浅析 Fermi并非GT200高规格版

        我们知道直接影响性能的参数当属硬件规格和产品频率,但是高规格和高频率的实现必须由晶体管来足见完成,GT200第一批产品是一个采用65nm制程的14亿晶体管庞然大物,由于成本、性能等各方面的考虑,在2009年1月推出了55nm制程的GT200核心,但核心面积依然庞大。反观对手AMD,在核心制程上一直走在前沿,例如Radeon HD 5000系列直接使用40nm制程,即使最高规格的RV870拥有21.5亿核心面积也仅为330mm2


Fermi GF100设计架构

        众所周知,Fermi为了达到更高的性能将使用30亿晶体管,如果NVIDIA一如既往的保守采用成熟的低制程,将会重蹈GT200覆辙,所以Fermi方面NVIDIA从设计之初就决定使用40nm工艺。虽然出发点是好的,但无奈GPU代工生产方台积电良率过低,彻底延误了NVIDIA下一代产品的推进进度。

        不过无论怎样还是让我们了解一下Fermi GF100的全规格核心硬件规格:

①标配512个CUDA Cores(也就是我们常说的流处理器);
②拥有16个Polymorph Engines(下文会对其进行简介);
③拥有4个Raster Engines(下文会对其进行简介);
④拥有64个纹理单元;
⑤拥有48个ROP单元(光栅处理器);
⑥拥有384位GDDR5内存控制器。

        ● GF100整体架构

        GF100 GPU基于图形处理团簇(翻译为GPC),可扩展流阵列多处理器(SM)和内存控制器(MC)。一个完整GF100实现四个GPC,16个SM和6个内存控制器。通过对GPC的开启和关闭,对SM和内存控制器不同的配置,可以划分出满足不同价位的产品。所以我们也可以称GF100为一个4 GPC核心的GPU。


Fermi架构GF100功能单元分布


        图中我们可以看到GF100的总线接口、GigaThread线程调度器、四个完整的GPC单元、六个内存控制器、六个ROP簇和768KB二级缓存。每个GPC单元包含四个多边形引擎。六个ROP簇紧邻二级缓存。

        CPU的命令通过Host Interface总线接口传输到GPU。在GigaThread引擎会从系统内存提取指定数据,并把它们拷贝到指定的显存。 GF100集成了6个64位GDDR5内存控制器(共计384位),以便获得高带宽和低延迟。然后GigaThread引擎创建并调度这些block到各个SM,其次再到warp(每个warp包含32个threads线程)交给CUDA Core和其他执行单位。在GigaThread引擎重新分配工作时,图形流水线上的各个单元如细分曲面和光栅化之类的单元也会继续工作。


        GF100拥有512个CUDA Core,它们属于16个SM单元,每个SM单元包括32个CUDA内核。每个SM是一个高度平行处理器,最多支持在任何规定时间完成对48个warp的处理 。每个CUDA Core是一个统一的处理器核心,执行顶点,像素,几何和kernel函数。一个统一的768KB二级缓存架构负责线程加载、存储和纹理操作。每组SM里四个纹理单元,共享使用12KB一级纹理缓存,并和整个芯片共享768KB二级缓存。每个纹理单元每周期可计算一个纹理寻址、拾取四个纹理采样,并支持DX11新的压缩纹理格式。


Fermi架构GF100核心照片


        GF100拥有48个ROP单元,用来执行抗锯齿和原子内存操作。这48个ROP单元被分配为6组,每组8个,每组ROP配备一个内存控制器。内存控制器、L2高速缓存和ROP单元是紧密耦合的,也可以成组屏蔽。所有ROP单元和整个芯片共享768KB二级缓存(GT200里是独享)。
        关于运行频率,在每一组SM阵列里,纹理单元、一二级缓存、ROP单元和各个单元的频率也都完全不同于以往。除了ROP单元和二级缓存,几乎其他所有单元的频率都和Shader频率(NVIDIA暂称之为GPC频率)关联在一起:一级缓存和Shader单元本身是全速,纹理单元、光栅引擎、多形体引擎则都是一半。
        Fermi颠覆了G80以来的分频模式,曾今我们称固定单元的频率是GPU核心频率,而流处理器频率较高,它的速度是核心的2.15或者2.25倍。从Fermi开始“核心频率”就是流处理器频率(也可以称为GPC频率),而固定单元的频率默认为“核心频率”的一半,未来的超频模式肯定要发生变化了。

        ●由繁化简 GF100结构组成细说

        我们可以这样认为NVIDIA的第一代CUDA机构是从G80开始延伸至GT200,而Fermi将是第二代CUDA架构产品。G80核心的诞生奠定了NVIDIA未来核心架构的主方向,并一直延续至GT200,当然在发展的过程中NVIDIA还是会对核心整体进行优化调整,但总体来说就是累积晶体管增加硬件规格,功能方面并无变化。反观Fermi,核心硬件规格数量相比GT200确实也有大幅增长,但是在产品整体架构上Fermi做了很大改动,可以说是颠覆性改动,它不仅仅是借鉴的以前的成熟架构体系,还调整并在架构上新增功能模块,令Fermi不再简简单单的是图形核心,而是一个复合型功能核心。


NVIDIA Fermi GF100 SM架构

        在NVIDIA产品进入DirectX 10的统一架构后,我们看到核心中引入了TPC(Thread Processing Cluster)、SM(Streaming Mulitporcessor)和SP(Streaming Processor)等新概念。例如,G80拥有8个TPC,每个TPC拥有2个SM,每个SM拥有8个SP,这种由繁化简的结构一直延续在NVIDIA的图形产品中。那么Fermi GF100呢?下面笔者用表格进行一个汇总:

理 论 性 能 测 试
G80G92GT200GF100
每颗GPU含TPC数量8 TPCs8 TPCs10 TPCs4 GPCs
每个TPC含SM数量2 SMs2 SMs3 SMs4 SMs
每个SM含SP数量8 SPs8 SPs8 SPs32 SPs

        通过上面的GF100 SM架构图以及各代顶级芯片的组成我们可以看出,SM矩阵数量在减少(上表中的GPC和TPC),而每个GPC中SM数量和每组SM中SP数量在增加。在这中架构设计理念上GF100虽然是延续了G80的组成设计,但是每个组成模块的数量优化上有了大幅改变。


图片源于Anandtech

        GF100图形架构核心,从硬件的块数称为图形处理团簇(GPC)。每个GPC包含一个光栅引擎和四个SM单元。GPC是GF100占主导地位的高层次的硬件模块。除了计算单元它还包括两个重要特点——分别是一个可升级的光栅引擎(Raster Engine)、Z-cull和一个带有属性提取和细分曲面的多边形引擎(Polymorph Engine)。


Fermi架构GPC架构图


        正如其名称所示,所有的GPC都集成了关键的图形处理单元。它包括顶点,几何,光栅,纹理均衡设置和像素处理资源。随着ROP单元功能的不断增强,一个GPC单元可以被看作是一个配置齐全的GPU,而GF100拥有4个这样的核心。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:01:36 | 显示全部楼层

Fermi架构GF100核心 新增强劲神器引擎

        当然仅是在数量优化上做改变还不能称为第二代CUDA架构,我们在GF100核心架构图和SM架构图上可以看到,相比G80/92和GT200核心架构多了Polymorph Engines和Raster Engines功能模块组。那么它们又是做什么的呢?


全新的Polymorph Engines和Raster Engines

         我们可以这样简单的理解,在数据处理流程中的一些功能模块现组成了现在的Polymorph Engines和Raster Engines。其中Polymorph Engines包括Vertex Fetch、Tessllator、Viewport Transform、Attribute Setup和Stream Output,Raster Engines包括Edge Setup、Raterize和Z-Cull。


GF100对比RV870 Tessellation性能

        值得一提的是DirectX 11中Tessellation功能是必不可缺的,而Tessellator并不是使用SP来完成,而是采用独立功能模块完成,在这一点上与AMD的做法一致。但不同的是,AMD的Tessellator采用串行计算模式,也就是说核心中只有一个Tessellator功能模块,数据计算从分配到接收Tessellator会成为瓶颈。反观NVIDIA的GF100核心,每组SM拥有一个Polymorph Engines,这也就意味着一个GF100核心拥有16个Tessellator功能模块,在Tessellation多数据并行计算方面GF100遥遥领先RV870。


Polymorph Engines和Raster Engines在GF100中的设计

        前文提过每组SM都会标配一个Polymorph Engines,同时每组GPC将独立拥有一个Raster Engines,这样的设计都是增加各种数据计算的并行效果,相比RV870的非Shader计算串行设计要优越很多。

        Fermi具备的光栅并行化是一个重要创新。NVIDIA称Fermi GF100是一个全新架构,不但是通用计算方面,游戏方面它也发生了翻天覆地的变化,几乎每一个原有模块都进行了重组:有的砍掉了,有的转移了,有的增强了,还有新增的光栅引擎(Raster Engine)和多形体引擎(PolyMorph Engine)。


光栅引擎(Raster Engine)


        光栅引擎严格来说光栅引擎并非全新硬件,只是此前所有光栅化处理硬件单元的组合,以流水线的方式执行边缘/三角形设定(Edge/Triangle Setup)、光栅化(Rasterization)、Z轴压缩(Z-Culling)等操作,每个时钟循环周期处理8个像素。GF100有四个光栅引擎,每组GPC分配一个,整个核心每周期可处理32个像素。


多形体引擎(PolyMorph Engine)


        多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作,DX11中最大的变化之一细分曲面单元(Tessellator)就在这里。Fermi GF100产品中有16个多形体引擎,每个SM一个,或者说每个GPC拥有四个。
        凭借多形体PolyMorph引擎,Fermi实现了全球首款可扩展几何学流水线,该流水线在单颗GPU中包含了最多16个Tessellation引擎。这些引擎在DirectX 11最重要的全新图形特性GPU加速Tessellation中能够发挥出革命性的性能。通过将更加细腻的几何图形融入到场景当中,Tessellation让开发人员能够打造出视觉清晰度极高、更加复杂的环境。锯齿边缘平滑了,从而使游戏中所渲染出来的人物能够拥有影院般细腻的画质。
        在以前的架构中,固定功能单元只是单一的一条流水线。而在GF100,无论是固定功能单元和可编程操作单元都并行设计,这大大提高图形性能,也解决了GPU长期以来未有重大突破的性能短板。
        多形体PolyMorph引擎的出现,是几何流水线近几年间不断演化的重大突破。特别是细分曲面操作,需要的三角形和光栅能力都异常可怕,传统GPU无法应对。多边形引擎的出现大幅度提高了三角形、细分曲面和流输出能力。通过给每个SM搭载属于自己的细分曲面Tessellation硬件单元,并为每个GPC搭载属于自己的光栅化引擎,GF100最终为我们提供了高达8倍于GT200几何性能。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:01:52 | 显示全部楼层
● 真正缓存概念引入GPU

为了增加计算单元的效能,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。


GF100引入L2缓存

        为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用并灵活的L1和L2。


GT200与GF100缓存设计对比

        我们通过上面表格可以看到,在GT200核心中有L1纹理缓存、16KB共享内存和256KB的L2缓存。笔者需要说明的是GT200没有专用L1缓存,只有L1纹理缓存和只读L2缓存,也就是说GT200没有真正意义上的缓存概念。

        反观GF100核心,除同样拥有12KB的L1纹理缓存之外,其拥有真正意义的L1缓存和L2可读写缓存。就每组SM而言,每组SM拥有4个纹理单元共享12KB的L1纹理缓存,32个流处理器使用16KB L1缓存搭配48KB共享缓存或48KB L1缓存搭配16KB共享缓存两种组合,最后还有768KB超大L2缓存。

        为了增加计算单元的效能,更好地配合计算核心,降低存储器延迟,缓存的概念引入到功能处理器中,例如CPU现在已经拥有L1、L2和L3三个等级缓存,而在GPU中缓存概念还是十分模糊。主要原因是GPU的运算核心数量太多,缓存需求量太大,而另一个方面,在以往的GPU通用计算程序中,确实很少有用到缓存,特别是可读写的真正意义上的缓存。


CPU和GPU功能性单元对比


        为了增加GPU的计算能力和计算效率,NVIDIA工程师大胆的将缓存概念引入到GF100中,自然引入缓存势必需要大量晶体管完成,在这点上与CPU道理相同。这样的选择要承担很大风险,但是面向应用设计的GPU必须进行改进,也必须直面问题而不能回避。为了在满足数据计算吞吐率的前提下,NVIDIA工程师为GF100设计了一套实用灵活的L1和L2。

        通过了解不同的成千上万的应用程序,NVIDIA工程师发现shared memory可以解决一部分程序的需求,但是不能解决所有的问题。一些应用程序天然需要shared memory,有些应用程序则需要缓存cache,有的既需要shared memory也需要cache。优化的内存设计可以既提供shared memory也提供cache,可以让程序员根据自己的需求来做选择。Fermi架构通过变化存储器的资源配置,可以同时支持这两种需求。


Fermi架构可配置缓存结构


        GF100的每一个SM中拥有64KB的可配置片上缓存,可以设置为48KB共享缓存加16KB L1缓存,也可以设置为16KB共享缓存加48KB L1缓存。在之前的GT200核心中,并没有L1缓存的设计。L1缓存可以用于处理寄存器溢出、堆栈操作和全局LD/ST。过去,GPU的寄存器如果发生溢出,会大幅度增加存取时延。
    有了L1缓存以后,即使临时寄存器使用量增加,程序的性能表现也不至于大起大落,双精度等运算的衰减控制也将更为优秀。对于那些无法预知数据地址的算法,例如物理计算、光线追踪都可以从GF100的专用L1缓存设计中显著获益。共享缓存的设计则有利于多线程间数据重用,让程序把共享缓存当成缓存来使用,由软件负责实现数据的读写和一致性管理。而对那些没有使用共享缓存的应用程序来说,也可以直接从L1缓存中受益,显著缩减运行CUDA程序的时间。


GT200和GF100架构缓存构成形式与容量对比

        Fermi有768KB的统一的L2缓存,可以支持所有的存取和纹理操作。L2缓存和所有的SM都相通。L2提供有效和高速的数据支持。有些算法不能在运行前就确定下来,像一些物理问题,光线跟踪,稀疏矩阵乘法,尤其需要缓存的支持。过滤器和转换器需要所有的SM都去读取相同数据的时候,缓存一样会有很大的帮助。


        而Fermi的对手代号R800的HD5870所具备的cache是不可随便调用的,HD5870的缓存实际上是传统的Texture cache,只不过现在可以用来临时释放结果做LDS(Local Data Share),不可编程,不可操作,不可写,只读。所以R800现在是16KB LDS+16KB cache,也就是说专用LDS只有16KB。
        这里顺便提及Fermi首次在GPU中引入全局ECC的作用。Fermi是第一款支持内存错误检查和修复(ECC)的GPU架构。在使用GPU做大数据量的处理和高性能计算的时候,ECC是有大量的需求。在医疗图像处理和大型集群中,ECC是最有用的特性。
        正常情况下的内存位的存储错误,都会引起软件的错误。ECC就是在上述错误没有多系统造成影响的情况下,用来检查和纠正这样的错误。由于这样的错误会根据系统的增大线性的增加,ECC就成为大型集群中必不可少的需求。
        Fermi架构GPU的寄存器,共享内存,L1缓存,L2缓存和DRAM内存都受到ECC保护,这样的设计部只是为了高性能的GPU应用,也是为了增加系统的可靠性,这是大规模部署Tesla等高端通用计算产品的前提。但是ECC技术是在原来的数据位上外加位来实现的,所以支持ECC技术的Fermi实现各种存储的代价,都要大于普通GPU。当然我们也找到另外一种说法称FermiDRAM ECC实现机制和传统CPU每8-bit增加一个位元的方式不一样,是一种专利方式。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:02:17 | 显示全部楼层
●强大的线程调度能力
    关于线程的调度问题,我们首先需要了解一些G80以来CUDA架构的线程关系。
    线程结构:CUDA将计算任务映射为大量的可以并行执行的线程,并且硬件动态调度和执行这些线程。Kernel以线程网格(Grid)的形式组织,每个线程网格由若干个线程块(block)组成,每个线程块又由若干个线程(thread)组成。实质上,kernel是以block为单位执行的,CUDA引入Grid只是用来表示一系列可以被并行执行的block的集合。各block是并行执行的,block间无法通信,也没有执行顺序。目前一个kernel函数中有一个grid,而未来支持DX11的硬件采用了MIMD(多指令多数据)架构,允许在一个kernel中存在多个不同的grid。


线程、线程块和执行内核的关系


    Block:CUDA中的kernel函数实质上是以block为单位执行的,同一block中的线程需要共享数据,因此它们必须在同一个SM中发射,而block中的每一个线程(thread)则被发射到一个SP上执行。一个block必须被分配到一个SM中,但是一个SM中同一时刻可以有多个活动线程块(active block)在等待执行,即在一个SM中可以同时存在多个block的上下文。当一个block进行同步或者访问显存等高延迟操作时,另一个block就可以“趁虚而入”,占用GPU资源,最大限度利用SM的运算能力。
    arp:在实际运行中,block会被分割为更小的线程束,这就是warp。线程束的大小由硬件的计算能力版本决定。在目前所有的NVIDIA GPU中,一个线程束由连续的32个线程组成。warp中的线程只与thread ID有关,而与block的维度和每一维的尺度没有关系,这种分割方式是由硬件决定的。以GT200的角度来解释,warp中包含32条线程是因为每发射一条warp指令,SM中的8个SP会将这条指令执行4遍。在硬件中实际运行程序时,warp才是真正的执行单位。虽然warp是一个由硬件决定的概念,在抽象的CUDA编程模型中并不存在,但是其影响力绝对不容忽略。
        ●SM单元的双warp调度能力
    Fermi的每一个SM都有两个指令发送单元,可以同时让两个warp相互独立的并发运行。Fermi的Dual warp调度机制可以同时并发调度两个warp的一条指令分别在16个一组的CUDA core上进行计算,或者在16个存/取单元运行,或者4个SFU上运行。Fermi的调度器并不需要在指令流之间进行附属检查。利用如此优美的双发射调度机制,使得Fermi可以让硬件的计算能力达到极致。


Fermi架构的Warp运行关系


    在Fermi架构中,非常多的指令可以进行双发射,例如两条整数运算指令,两条浮点数运行指令,或者混合的整数,浮点,存取,和SFU特殊处理指令都可以被并发执行。单精度和双精度的指令一样可以并发执行。
        ●并行指令更自由
    NV不断充实周边资源,使用更激进的架构,而AMD不断扩大流处理器规模,都是为了更好的隐藏延迟。GT200架构已经可以控制SMIT活用跳转来在实现线程在不同的SM单元之间进行跳跃。命令单元为multi-thread模式,能够执行Out-of-Order指令,而当处理warp命令流时则是In-Order,而根据NV架构设计师John Nickolls的介绍,GT200架构实际warp中的线程也能够支持Out-of-Order。
    Fermi在每个SM前端都有两个Warp调度器和两个独立分配单元,和SM其它部分完全独立,均可在一个时钟循环里选择发送一半Warp,而且这些线程可以来自不同的Warp。分配单元和执行硬件之间有一个完整的交叉开关(Crossbar),每个单元都可以像SM内的任何单元分配线程(不过存在一些限制)。
    作为运算单元的CUDA核心在Fermi的SM每个单元中共2个组,每组16个,SFU有4组,载入/存储单元16个。这4个小组能够各自并行执行不同的Warp不同的指令。由于CUDA核心是16个一组,16线程并列会让物理vector变长。因此2个周期能够以32线程构成的单Warp的一个指令。载入/存储单元也同样如此。SFU因为是4线程并列,因此是以8周期执行1个warp。这样指令单元本身增加到了2个,各个指令单元能够每个周期发出2条指令。可以说Fermi实现的并行化指令自由度更高。
        ●GigaThread线程调度优化
    Fermi架构的另一个重要特性,就是它的双层分布式调度机制。在片上的层面(SPA Streaming Processor Array,流式处理器矩阵级别),全局的分布式线程调度引擎(global work distribution engine)分发block到每一个SM上,在SM层面,每一个warp分布式调度引擎按照32个线程为一个warp执行。

    Fermi实现了SM级别的双发射,意味着SPMD(单线程多任务)的实现。从并行kernel下探到最底层,实际上就是靠的SM级别的双发射。SM级别的SPMD上升到GPU核心级别,Fermi就是MPMD(多线程多任务)。这种设计已经越来越像CPU,而且随着GPU的发展,每走一步,就多像一份。


Fermi实现了SM单元级别的双发射

    第一代GigaThread线程调度引擎,在G80架构中实现了12288个线程的实时的调度管理。Fermi架构不只是增强了原有的机制,而且引进了更快的context上下文交换机制,并行kernel执行机制,增强了线程block的调度能力。Fermi的这项能力相对于上一代GPU提高了10倍。

    同时像CPU一样,GPU也可以利用context上下文交换机制来管理多任务的切换,每一个任务都可以用分时的方式利用处理器的计算资源。Fermi的运算流水线经过优化设计,把context上下文的切换时间减少到了10~20毫秒,极大的优化了上一代的GPU架构。不只是性能的提高,这个设计可以让开发者创建更快的kernel-to-kernel应用程序,例如让程序在图形和PhysX上的应用,图形与物理效果处理之间的运算也将受益于更快的context上下文交换机制。


        ● 并行执行内核Concurrent Kernel Execution


并行执行内核让资源利用更充分,计算速度更快


    Fermi支持kernel并发运行,同一应用程序的不同kernel可以同时运行在GPU上。Kernel并发机制可以让应用还曾向执行更多的kernel来发挥GPU的能力。例如,PhysX应用程序需要计算流体和固体,如果是串行执行,只能利用一半的线程处理器。Fermi的架构可以让同一个CUDA context的kernel都同时运行在同一个GPU上,这样可以更有效的利用GPU的资源。不同应用程序context的kernel函数也可以通过更快速的context切换,更快地运行在GPU上。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:02:45 | 显示全部楼层

升级DX11体验HDAO高画质特效

        ● 什么是HDAO?和SSAO有何关系?

        在HDAO和SSAO中,"AO"为Amblent Occlusionde的缩写,中文译为环境光遮蔽。在DirectX 10.1 API推出后,Amblent Occlusionde升级为SSAO;而在微软推出DirectX 11 API后,SSAO升级至HDAO。

        其实现有采用统一架构的图形核心都能实现环境光遮蔽效果,仅是SSAO在DirectX 10.1引入后,得到了更优的代码/函数能够更有效的实现环境光遮蔽效果,例如支持DirectX 10.1的图形核心和仅支持DirectX 10的图形核心在处理同一画面,前者较后者有10%以上的效能提升。而DirectX 11引入的HDAO,相较SSAO和AO又有了效能提升。了解了AO、SSAO、HDAO之间的关系后,让我们看一下实际有效效果。


1:1细节对比(每组对比 左侧为AO开启 右侧为AO关闭)

        首先,也许很多网友对比完图片后感觉并没有明显区别,笔者需要提醒大家本页图片最好点击放大后对比;其次,也许很多网友点击放大后确实发现了区别,不过还会有很多反对的声音,例如“升级显卡为了这么一点提升不值”,但是笔者需要说的是每一代产品、每一代API的升级画质都是一个循序渐进的过程,这种积少成多的画质量变才能引起画质的质变。

DX11什么功能带来更细腻画质?

        每一代DirectX API的升级或者游戏引擎的升级都会带来游戏画质提升,而其中DirectX API的升级会具有更广的应用性。而在DirectX 11 API上除了前文介绍的HDAO技术外,我们还应该了解另外两个技术,它们分别是Tessellation和Order-Independent Transparency,中文字面意译就是镶嵌细面曲分技术和顺序无关半透明技术。

        那么二者又有何作用呢?

        ● Tessellation镶嵌细面曲分技术

        我们知道,3D渲染简单来说就是一个建立三角形的过程,三角形越多越小渲染出来的结果就会越细致,人眼识别起来就更真实。不过在现有人力和硬件资源上,并不能为了获得更细致的画面而过分损耗编程人员和硬件资源,所以一种能够自动处理并且相对以前硬件架构有质的改变才能有效实现更高画质的梦想。


Tessellation带来更细腻的画质

        Tessellation就这样应运而生,首先图形核心架构从原来像素、顶点等Shader转变为统一架构的流处理器,这样就能够最大化应用图形核心的并行计算能力优势;而Tessellation能够在编程人员仅勾勒出简单轮廓后,自动镶嵌细化三角形模型。上图就能让我们最直观的感受Tessellation的优势。

        下面我们就以目前仅有的DirectX 11 API测试软件《Heaven Benchmark》截图为例,视觉区别一下启用Tessellation的画质提升。


《Heaven Benchimark》开启Tessellation


《Heaven Benchimark》关闭Tessellation

        上面两副图中,也许缩略图不能一下分别出差距,笔者建议点击放大后观察较为容易。其实如果仔细看,龙的身体和房屋的瓦片开启Tessellation前后差距最为明显。


《Heaven Benchimark》开启Tessellation


《Heaven Benchimark》关闭Tessellation

        上面两副图的效果差异非常明显,石路和石桥上的石块凹凸感明显是在开启Tessellation后更具立体感。

        DirectX 11提供的Tessellator单元本身不具备可编程性,因此DirectX11向Tessellator单元输入或者从中输出的过程是通过两个传统的管线阶段完成的:Hull Shader (HS,外壳着色器)和Domain Shader (DS,域着色器)。
        Hull Shader负责接收琐碎的图形数据和资料,而control points将会基于如何配置Tessellator来产生数据。可以说,Tessellator就是一个固定功能模块,用来处理一些基于一定参数的输入数据。最后Domain Shader将会接收由Tessellator产生出的点,并依照终点控制(control points)置换贴图将这些点形成一个合适的几何图形。
        GF100拥有更多的PolyMorph(多形体引擎),是以SM(流处理器)为单位分配的,拥有多达16组。多形体引擎则要负责顶点拾取(Vertex Fetch)、细分曲面(Tessellation)、视口转换(Viewport Transform)、属性设定(Attribute Setup)、流输出(Stream Output)等五个方面的处理工作。


Tessellation效果性能对比


        DirectX 11中最大的变化之一细分曲面单元(Tessellator)就在这里,因此GF100的理论Tessellation性能将会远超HD 5870(核心代号Cypress),因为Cypress只有一个Tessellator单元。这些硬件上的设计,让GF100在进行Tessellation操作时,性能下降很少。

        总体来看,Fermi的多形体引擎相对于以前绝非几何单元改头换面、增强速度而已,它融合了之前的固定功能硬件单元,使之成为一个有机整体。虽然每一个多形体引擎都是简单的顺序设计,但16个作为一体就能像CPU那样进行乱序执行(OoO)了,也就是趋向于并行处理。NVIDIA还特地为这些多形体引擎设置了一个专用通信通道,让它们在任务处理中维持整体性。


        当然这种变化复杂得要命,也消耗了NVIDIA工程师无数的精力、资源和时间。有一种传言说,多形体引擎是GF100核心变化的重要组成部分,也是GF100无法在去年及时发布的最主要原因。这么做也是不得已而为之。考虑到细分曲面单元的几何复杂性,固定功能流水线已经不适用,整个流水线都需要重新平衡。通过多形体引擎的并行设计,几何硬件不再受任何固定单元流水线的局限,可以根据芯片尺寸弹性伸缩。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:03:05 | 显示全部楼层

强大性能实现更高反锯齿/阴影效果

        Anti-Aliasing(反锯齿)一直是用户较为关心的显卡功能,因为反锯齿效能直接决定游戏流畅度及画面效果。我们会在游戏画质设置中或者显卡控制面板中找到这个选项,例如开启2X、4X、8X等等,级别越高画质越好,对显卡性能要求越高。

        通常我们所说的2倍、4倍和8倍抗锯齿都是指SSAA(SuperSampling Anti-Aliasing),虽然该种反锯齿技术效果最佳,但是对GPU资源消耗十分严重。后来在SSAA基础上衍生出了MSAA(MultiSampling Anti-Aliasing),它的特点就是进针对3D建模中边缘部分进行类似SSAA的反锯齿计算,这样在达到相近于SSAA效果前提下减少了GPU资源的消耗。

        随后,当NVIDIA在2006年底发布G80图形核心时,一同与其来到的还有全新的反锯齿算法——CSAA(CoverageSampling Anti-Aliasing),它是在MSAA基础上由NVIDIA开发而来。CSAA与MSAA一样是针对3D建模边缘部分进行反锯齿计算,不同的是CSAA是通过驱动将边缘原像素强制放在750*750的坐标中,然后在多边形取样并做相应设置的覆盖采样(CoverageSampling),从而实现与SSAA在GPU资源消耗基本相同前提下效果更佳。

        ● GF100提供更高级别CSAA



GF100能够单卡实现32x CSAA

        在G80引入CSAA后,NVIDIA单GPU最高可实现16CSAA,要想实现更高的反锯齿倍数,必须通过组建SLI模式,这主要是从单GPU性能角度出发。而在GF100核心中,单GPU可以实现32X CSAA效果。通过对比上图中的8X AA和32X CSAA,我们可以轻松看出反锯齿效果。


32X CSAA实现原理

        32X CSAA实际上是8X的颜色采样和24X的覆盖采样,在750*750的采样坐标中8个蓝色点为实际采样点,同时通过驱动分配机制每个实际采样点周围再计算出3个覆盖采样,从而实现8X AA + 24X CSAA的32X CSAA效果。


GF100 32X CSAA效果


GT200 16X CSAA效果

        由于GT200仅能实现最高16X CSAA(8X AA + 8X CSAA),所以在效果上完全无法匹敌能够实现32X CSAA的GF100图形核心。


GF100/GT200反锯齿资源消耗对比

        通过前文我们知道无论何种反锯齿技术,只要选择更高倍数的反锯齿模式都会带来更高的画质,但这就要付出更多的GPU资源。NVIDIA在GF100产品上通过架构优化,不仅反锯齿效能大幅领先GT200,同时由4X AA提升至8X AA时的GPU资源消耗也要低很多。


8X AA对比32X CSAA资源消耗

        单卡最高级别的8X AA和32X CSAA都能获得非常好的画面效果,但32X CSAA的效果要更好于8X AA,理论上也要付出更多的GPU资源消耗。不过在实际中,8X AA与32X CSAA的GPU资源基本相当,也就是说GF100提供了更强劲的反锯齿技术。

        ● GF100实现33级别TMAA


TMAA(透明多重采样反锯齿)

        TMAA(Transparency Adaptive Multisampling)是在MSAA基础上衍生而来,主要针对细长物体缺乏Alpha混色能力的难题,例如植物、栅栏和树叶等。TMAA通过控制纹理贴图的Alpha值,对细长3D模型进行Alpha混色,令画面细长物体渲染效果更加完善。


GT200 TMAA效果


GF100 TMAA效果

        GF100在TMAA计算上也有了长足进步,对比上面两副图明显是GF100的TMAA效果优于GT 200 TMAA效果。这都得益于GF100能够实现更加透明的过度色质量处理,其总共分为33个透明级别,而GT200只能望尘莫及。

        ● Gather 4助力抖动采样

        我们知道虚拟3D世界中物体是由数以万计的三角形组成,如果想要消除锯齿,我们可以像MSAA那样通过查找3D建模边缘进行反锯齿计算。而虚拟3D世界中的物体产生的阴影则是事实计算而来,也就是说无法普通的反锯齿模式无法对阴影进行反锯齿计算。

         Jittered Sampling(抖动采样)就是针对阴影边缘和各种后期处理一项技术,通过对邻近纹理像素进行采样来计算并创建更柔或更模糊的阴影边缘效果,当然这部分计算非常消耗GPU资源。在DirectX 9 API和DirectX 10 API下,抖动采样会采样每一个纹理像素,而到了DirectX 10.1 API后改用Gather 4指令进行处理。当然在DirectX 11 API下,仍然由Gather 4指令来完成抖动采样计算。


3DMark 06抖动采样效果


3DMark 06抖动采样效果

        效果不言而喻,更合乎真实3D世界的阴影效果处理,让我们真实感受GF100带来的震撼效能。

当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:03:49 | 显示全部楼层
●4个特殊功能单元Four Special Function Units (SFU)
        特殊函数处理单元处理超越函数,包括sin、cosine、求倒数、平方根。每一个SFU在一个周期内每一个线程可以执行一个指令操作,每一个warp执行需要8个周期。指令分发器可以按照当前SFU的运行情况来分发指令,当一个SFU在进行运算的时候,可以将指令分发到其他的SFU处理单元。

        ●双精度设计Designed for Double Precision

        Fermi的双精度浮点(FP64)性能也大幅度提升,峰值执行率可以达到单精度浮点(FP32)的1/2,而过去只有1/8,AMD现在也不过1/5,比如Radeon HD 5870分别为单精度2.72TFlops、双精度544GFlops。由于最终核心频率未定,所以暂时还不清楚Fermi的具体浮点运算能力(双精度预计可达624GFlops)。
       双精度的浮点计算在高性能计算中有着核心的重要位置,在求解线性代数中,数值计算量子化学中都会需要双精度浮点运算。Fermi架构为支持双精度浮点运算进行了特别设计每一个SM在一个时钟周期内可以完成16个双精度浮点数的FMA操作。是在GT200架构以后又一激动人心的设计。


双精度运算中Fermi架构的性能提升

        ●快速原子内存操作

        在多进程(线程)的操作系统中不能被其它进程(线程)打断的操作就叫原子操作,文件的原子操作是指操作文件时的不能被打断的操作。原子操作在并行计算中非常重要,它可以让线程对共享的内存结构做正确的读写操作。


        原子操作包括add、min、比较和交换、读、修改和写操作,它们都不用打断其他的正在运行的线程。原子操作被大量使用在并行存储、缩减和并行的建立数据结构中,而不需要锁定线程的执行。


Fermi原子操作能力提升


        大量原子操作单元和L2缓存的使用,大大增强了FermiGPU架构中的原子操作能力。在相同位置的原子操作,Fermi的速度比GT200快20倍,连续的内存操作是GT200的7.5倍。


        在GPU支持的内存寻址空间方面,GT80/GT200都是32-bit的,最多搭配4GB GDDR3显存,而Fermi一举支持64-bit寻址,即使实际寻址只有40-bit,支持显存容量最多也可达惊人的1TB,目前实际配置最多6GB GDDR5——仍是Tesla。
        同时Fermi统一了寻址空间,简化为一种指令,内存地址取决于存储位置:最低位是本地,然后是共享,剩下的是全局。这种统一寻址空间是支持C++的必需前提。而以前的架构里多种不同载入指令,取决于内存类型:本地(每线程)、共享(每组线程)、全局(每内核)。这就和指针造成了麻烦,程序员不得不费劲清理。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:04:03 | 显示全部楼层
性能测试的硬件、软件平台状况
  ● 测试系统硬件环境

  性能测试使用的硬件平台由Intel Core i7-975 Extreme Edition、ASUS P6T Deluxe主板和2GB*3三通道DDR3-1600内存构成。细节及软件 环境设定见下表:


测 试 平 台 硬 件
中央处理器Intel Core i7-975 Extreme Edition
(4核 / 超线程 / 133MHz*25 / 8MB共享缓存 )
散热器Thermalright Ultra-120 eXtreme
(单个120mm*25mm风扇 / 1600RPM)
内存模组G.SKILL F3-12800CL9T-6GBNQ 2GB*3
(SPD:1600 9-9-9-24-2T)
主板ASUS P6T Deluxe
(Intel X58 + ICH10R Chipset)
显示卡
AMD 产 品
Radeon HD 5970
(RV870 / 2048MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz)
Radeon HD 5870
(RV870 / 1024MB / 核心:850MHz / Shader:850MHz / 显存:4800MHz)
Radeon HD 5850
(RV870 / 1024MB / 核心:725MHz / Shader:725MHz / 显存:4000MHz)
Radeon HD 5830
(RV870 / 1024MB / 核心:800MHz / Shader:800MHz / 显存:4000MHz)
NVIDIA 产 品
GeForce GTX 480
(GF100 / 1536MB / 核心:700MHz / Shader:1401MHz / 显存:3696MHz)
GeForce GTX 470
(GF100 / 1280MB / 核心:607MHz / Shader:1215MHz / 显存:3348MHz)
GeForce GTX 295
(GT200 / 1792MB / 核心:576MHz / Shader:1242MHz / 显存:1998MHz)
GeForce GTX 285
(GT200 / 1024MB / 核心:648MHz / Shader:1476MHz / 显存:2848MHz)
GeForce GTX 275
(GT200 / 896MB / 核心:633MHz / Shader:1404MHz / 显存:2268MHz)
GeForce GTX 260
(GT200 / 1792MB / 核心:576MHz / Shader:1242MHz / 显存:1998MHz)
硬盘Hitachi 1T
(1TB / 7200RPM / 16M缓存  / 50GB NTFS系统分区)
电源供应器AcBel R8 ATX-700CA-AB8FB
(ATX12V 2.0 / 700W)
显示器DELL UltraSharp 3008WFP
(30英寸LCD / 2560*1600分辨率)


G.SKILL F3-12800CL9T-6GBNQ


AcBel R8 ATX-700CA-AB8FB


Thermalright Ultra-120 eXtreme

  我们的硬件评测使用的内存模组、电源供应器、CPU散热器均由COOLIFE玩家国度俱乐部提供,COOLIFE玩家国度俱乐部是华硕(ASUS)玩家国度官方店、英特尔(Intel)至尊地带旗舰店和芝奇(G.SKILL)北京旗舰店,同时也是康舒(AcBel)和利民(Thermalright)的北京总代理。


  ● 测试系统的软件环境
操 作 系 统 及 驱 动
操作系统
Microsoft Windows 7 Ultimate RTM
(中文版 / 版本号7600)
主板芯片组
驱动
Intel Chipset Device Software for Win7
(WHQL / 版本号 9.1.1.1125)
显卡驱动
AMD Catalyst for Win7
(WHQL / 版本号 10.2)
AMD Catalyst for HD5830
(Beta / 版本号 8.703)
NVIDIA Forceware for Win7
(WHQL / 版本号 196.21)
NVIDIA Forceware for GTX 400
(Beta / 版本号 197.17)

桌面环境

2560*1600_32bit 60Hz

测 试 平 台 软 件
3D合成
测试软件
3Dmark 06
Futuremark / 版本号1.10
3Dmark Vantage
Futuremark / 版本号1.01
3D游戏
测试项目
DirectX 9游戏
Call of Duty 6:Modern Warfare 2
Activision / 版本号 1.0
Left 4 Dead
EA / 版本号1.0
DirectX 10游戏Company of Heroes
Relic / 版本号1.7.1
Crysis
Crytek / 版本号1.2.1
DirectX 10.1游戏Farcry 2
 Ubisoft / 版本号 1.0
Tom Clancy's H.A.W.X
Ubisoft / 版本号 1.0
DirectX 11游戏Alien vs. Predator
SEGA / 版本号 1.0
Battlefield:Bad Company 2
EA / 版本号 1.0
Colin McRae DiRT 2
Codemasters / 版本号 1.01
Heaven Benchmark
UNIGINE / 版本号 1.0
Heaven Benchmark
UNIGINE / 版本号 2.0
Motre 2033
4A Game / 版本号 1.0
S.T.A.L.K.E.R.:Call of Pripyat
Koch / 版本号 1.0
PhysX游戏Batman
Eidos / 版本号 1.1
Dark Void
Copcom / 版本号1.0
辅助测试软件Fraps
beepa / 版本号 3.1.3


  各类合成测试软件和直接测速软件都用得分来衡量性能,数值越高越好,以时间计算的几款测试软件则是用时越少越好。
当一扇幸福之门关闭时,另一扇就会打开。

3万

回帖

225

好友

9万

经验

超级版主

Vampire

威望
506

摄影爱好者论坛顶梁柱传说只有读到博士后的人才可拥有这枚勋章

 楼主| 发表于 2010-3-27 18:04:23 | 显示全部楼层
● DX9理论性能测试:3DMark 06

  3Dmark 06作为上一代3DMark系列巅峰之作,所有测试都需要支持SM3.0的DirectX 9硬件,并且支持HDR特性,这款软件的最终得分里CPU性能占有不小的权重,因此它更适宜分析整个系统的3D加速能力。

当一扇幸福之门关闭时,另一扇就会打开。
您需要登录后才可以回帖 登录 | 立即注册

收藏:1 | 帖子:5190

有图有真相