吸血大魔王 发表于 2010-10-20 18:05:50

千元以下神级卡 GTS450 CUDA性能测试

● CUDA通用计算代表GPU发展新方向    一位ZOL博客用户告诉我,最近他在同学聚会上,与一个从事广告设计、美工制作的老朋友各自谈起自己的工作。那位同学经常策划许许多多大型的户外广告宣传活动,需要进行很多如巨型条幅,大型广告画面的设计任务,工作可谓非常的繁忙。不过虽然繁忙,他的工作时间却有绝大部分在喝茶、聊天、看报纸杂志,但是他仍然需要加班到深夜。这让他摸不着头脑,既然如此繁重的工作,为什么会出现一边效率低下、一边加班加点的情况呢?
    同学的解释让他一下子明白了其中的奥秘,由于户外广告设计一个最重要特点——超大文件。他们工作时所需要处理的图片和条幅都是超乎寻常的海量文件,虽然公司几经为他们配备了性能非常优秀的电脑来进行处理,但是,由于文件的容量太大,仅仅一个简单的渲染过程就要等待半个小时甚至最长长达5个小时。导致我这位可怜的同学一天下来,仅仅能够进行简单的几部操作,而剩下的事情几乎全部是坐在电脑前等待……

http://2b.zol-img.com.cn/product/43_500x2000/537/ceJXgJzqcz7g.jpg
NVIDIA和AMD两家公司都意识到了通用计算的重要性    这种悲惨局面的造成其实是一个非常重要的原因,那就是在我们的工作中,对于这种大型的运算、我们的软件仍然在过分的依赖着CPU处理器。而GPU通用计算的出现,正在改变这种现状,借助一款中端显卡,我们就能实现很多原来CPU非常难以处理的工作。
    CUDA是NVIDIA公司于2007年推出的GPU通用计算产品。CUDA是Compute Unified Device Architecture(统一计算架构)的简称,是建立在GPU基础之上的通用计算开发平台,它是一个全新的软硬件架构,可以将GPU视为一个并行数据计算的设备,对所进行的计算进行分配和管理。利用CUDA能够充分的将GPU的高计算能力开发出来,并使得GPU的计算能力获得更多的应用。
    CUDA最为关键也最受推崇的原因很简单——它是业界第一款不需要图形学API就能使用类C语言进行通用计算的开发环境和软件体系。这大大增强了CUDA的普及速度和普及成本。
http://2f.zol-img.com.cn/product/43_500x2000/763/cej5G4ofzKw.jpg
NVIDIA提出的CUDA通用计算方案    CUDA能够有效利用GPU强劲的处理能力和巨大的存储器带宽进行图形渲染以外的计算,广泛应用于图像处理、视频传播、信号处理、人工智能、模式识别、金融分析、数值计算、石油勘探、天文计算、流体力学、生物计算、分子动力学计算、数据库管理、编码加密等领域,并在这些领域中对CPU获得了一到两个数量级的加速。取得了令人瞩目的成绩。
http://2e.zol-img.com.cn/product/43_500x2000/792/ceuFsOHE8tLm2.jpg
CUDA应用范围广泛    CUDA从发布开始,到目前已经到了3.0版,从NVIDIA提出CUDA这个概念,已经有三年多时间,在这一年时间里CUDA发展迅速,在NVIDIA CUDA网站上每天都有很多网友提交自己的CUDA软件作品。
http://2f.zol-img.com.cn/product/43_500x2000/499/ceUp0GbzOvK1E.png
数不清的应用和测试在等待我们挖掘    在轻量级的小软件中,CUDA已经如雨后春笋般的涌现,从IE图象插件PICLENS,到PHOTOSHOP CS4 开始支持CUDA的插件。视频编码解码是CUDA发展最迅速的方面之一,目前已经有大量的软件开始支持CUDA GPU加速,同时支持CUDA应用大型软件也出现了不少。

吸血大魔王 发表于 2010-10-20 18:06:33

● 千元以下神卡GTS450简析      作为G80架构的改良产品G92可以说是一款长寿卡,从2007年末诞生的GeForce 8800 GT一路走来历经不同“朝代”,即使是DirectX 11 API发布1年后的今天,市场中仍能见到由其衍生出来的GeForceG GTS 250活跃在零售市场中。
      不过好产品归好产品、经典归经典,毕竟G92的性能及功能已经不能再完全满足用户的日常所需,最重要的一点就是DirectX 11 API的不支持。当然在这其中也有很多NVIDIA自身策略原因影响左右,例如DirectX 11产品开发的进度,例如Fermi架构衍生产品的市场定位等等。

http://2c.zol-img.com.cn/product/52_450x337/252/cembV768YZKI.jpg
公版GeForce GTS 450显卡      从外观而言,GeForce GTS 450与GeForce GTX 460极为相似,均采用了100%覆盖的导风罩设计,同时散热器风扇中置。接口方面公版的GeForce GTS 450采用了双DVI搭配Mini HDMI的组合,和其他所有NVIDIA 4系列DirectX 11产品一致。http://2b.zol-img.com.cn/product/52_240x180/257/ceTwZtMDf9yE.jpg    http://2d.zol-img.com.cn/product/52_240x180/253/cePU423MDJis.jpg
PCB正反特写http://2c.zol-img.com.cn/product/52_450x337/258/ceKnSthqilo.jpg
PCB正面布线设计http://2d.zol-img.com.cn/product/52_450x337/259/cenmGIIEOLNdQ.jpg
基于40nm工艺制造的GF106-250-KA-A1核心http://2d.zol-img.com.cn/product/52_500x2000/711/cerKGdSd2Mw.jpg
基于40nm工艺制造的GF106-250-KB-A1核心http://2f.zol-img.com.cn/product/52_450x337/261/ceo5NNYFTPdw.jpg
标配8颗SAMSUNG K4G10325FE-HC05颗粒      GeForce GTS 450公版产品标配了8颗SAMSUNG K4G10325FE-HC05颗粒,每颗规格为32M*32bit,构成128bit/1024MB的显存规格组合。      为GeForce GTS 450设计的GF106核心基于40nm工艺打造,型号为GF106-250-KA-A1核心,其由11.7亿个晶体管组成,约为GF106核心的一半。GF106-250核心原生192个流处理器、标配128bit显存控制器,同时具备16个光栅单元和32个纹理单元。      在NVIDIA上一代产品中,不得不说GeFoce GTX 260和GeForce GTS 250是两款明星产品,他们分别依附在千元价位上,前者主攻千元稍高的价位,而后者主要镇守千元以下高性能产品的地位。同时前者也是GTX高端系列的最“弱”型号,而后者也是中端系列GTS中的最“强”型号,二者给消费者以高性价比的性能体验,深受用户青睐出货量惊人。      时至今日,随着DirectX 11朝代的来临GeForce GTX 260和GeForce GTS 250已经廉颇老矣显现疲态,此时GeForce GTX 460和今日发布的GeForce GTS 450正式走上历史舞台。而且值得一提的是,无论是价位、定位还是命名上,我们都能看到当年GeForce GTX 260和GeForce GTS 250的身影。

吸血大魔王 发表于 2010-10-20 18:07:08

● 千元以下神卡GTS450架构沿革      GF100、GF104和GF106都是基于Fermi架构打造,不过在规格矩阵上为了适应不同成本、定位的产品,进行了合理化的调整。例如GF100拥有超过30亿的晶体管、原生具备512个流处理器,而GF104拥有接近20亿的晶体管、原生384个流处理器。      而GF106核心具备11.7亿晶体管、192个流处理器、128bit显存控制器,这些规格细心的用户能够发现正好是GF104的一半,难道二者有着相对更加紧密的关系?
http://2a.zol-img.com.cn/product/52_450x337/322/ceYGHQdW8zwtU.png
GF100/GF104/GF106市场定位      根据NVIDIA针对GF100、GF104和GF106的定位为除了一个较为形象的比喻,GF100拥有最猛火力的重装战士,而GF104是具备杀伤力武器的机动战士。而GF106被定义为“Sniper”(狙击手),拥有一击毙命的本事,足见NVIDIA对这款产品的厚望。http://2e.zol-img.com.cn/product/52_450x337/242/ce3snq9LuX4PQ.jpg
GF100和GF104核心架构图http://2e.zol-img.com.cn/product/52_450x337/356/ceQuAiPlo98go.jpg
GF106核心架构图      通过上面GF100、GF104和GF106的核心架构图,我们发现虽然在整体架构上三者保持了Fermi的完整性,例如GPC→SM→CUDA Core由广到微的等级结构,例如独立的Polymorph Engine和Raster Engine的设计等。      而且从GF104和GF106架构图中不难看出,就GPC、SM、CUDA Cores、MC控制器而言,GF106正好均为GF104的一半。

GF100 SM vs. GF104/GF106 SM
Graphics CoreGraphics CoreGF100GF104/GF106
SMCUDA Cores3248
Warp Scheduler22
Dispatch Unit24
SFU48
LD/ST16 个16 个
INT Unit3248
FP UnitFP32:32
FP64:16FP32:48
FP64:24
Texture Unit48

      不过在微架构上,例如SM的CUDA Core等功能模块的组成,GF106延续了GF104的设计,即每组SM中包含48个CUDA Core、8个SFU和8个纹理单元等改良设计。相比拥有庞大规格的GF100而言,GF104的微架构的优化能够弥补先天规格不足的弊端,所以GF106传承了GF104微架构体系设计。

相 关 显 卡 规 格 对 比
显卡型号GeForce GTX 480GeForce GTX 460GeForce GTS 450GeForce GTS 250Radeon HD 5770Radeon HD 5830Radeon HD 5870
市场定价3500元1499元129美元799 元899 元1499元2999元
GPU代号GF100GF104GF106G92RV840RV870RV870
GPU工艺40nm40 nm40 nm40 nm40 nm40 nm40 nm
GPU晶体管32亿19.5 亿11.7 亿19.5 亿10.4 亿21.5亿21.5亿
着色器数量48033619212880011201600
着色器组织1D*4801D *3361D *1921D *128(1D+4D)*160(1D+4D)*2241D+4D)*320
ROPs数量48321616161632
纹理单元数量60563264405680
核心频率700 MHz675 MHz783 MHz738 MHz850 MHz800 MHz850 MHz
着色器频率1401 MHz1350 MHz1566 MHz1836 MHz850 MHz800 MHz850 MHz
理论计算能力2.02
TFLOPs1.36 TFLOPs0.902 TFLOPs0.705
TFLOPs1.36 TFLOPs1.79 TFLOPs2.72 TFLOPs
等效内存频率3696 MHz3600 MHz3600 MHz2200 MHz4800 MHz4000 MHz4800 MHz
内存位宽384 bit256 bit128 bit256 bit128 bit256 bit256 bit
内存带宽177.4 GB/s115.2 GB/s57.6 GB/s70.4 GB/s76.8 GB/s128.0 GB/s153.6GB/s
内存类型GDDR5GDDR5GDDR5GDDR3GDDR5GDDR5GDDR5
内存容量1024 MB1024 MB1024 MB1024 MB1024 MB1024 MB1024 MB
DX版本支持11111110111111
HD视频技术PureVideo HDPureVideo HDPureVideo HDPureVideo HDUVD2UVD2UVD2
通用计算接口CUDACUDACUDACUDAStreamStreamStream

吸血大魔王 发表于 2010-10-20 18:07:33

● GTS450挑战暴风视频转码  随着高清视频、手持影音设备的逐渐普及,越来越多的用户在日常生活中都接触了视频编解码的转换。对于许多用户而言,视频的转码是一项非常繁琐的事情,因为许多软件所转换的格式非常有限,同时转换的效率也是非常低下,因此一款真正全能的高效视频转换软件正被用户们所期待。

http://2a.zol-img.com.cn/product/53_500x2000/698/ce7xlGacdV9I.png
GTS450正在使用暴风影音转码  暴风转码的输出设备就集中在了电脑之外的掌上设备上,包括手机、MP3、MP4、PSP等。打开暴风转码1.0正式版,进入输出设备的设置界面,你会发现它支持的设备让人眼花缭乱,包括诺基亚、多普达、摩托罗拉、三星、iPhone、PSP、iPod、魅族等在内的5大类,109个系列、300多种不同的移动设备,都能找到支持。
  暴风转码软件是首款支持CUDA加速技术的软件,在研发过程中与全球视觉计算技术的行业领袖NVIDIA公司展开了密切的合作,在暴风转码1.0中已经成功支持NVIDIA CUDA计算架构,在安装有NVIDIA显卡的电脑时,其视频转换速率将提高3-4倍。
http://2d.zol-img.com.cn/product/53_500x2000/131/ceO6YmRC2Gor.png
转码没有打开CUDA加速  而在最新的暴风转码1.0正式版中,最重要的一个突破就是,它与NVIDIA进行了深入合作,利用NVIDIA CUDA技术开放平台,大大提升了视频的转换效率和质量,与NVIDIA显卡进行天衣无缝的配合,最大限度地利用了硬件的性能。据NVIDIA技术人员检验,采用NVIDIA CUDA技术加速H.264视频编码,其转化速度10倍于正常播放速度,一部DVD 5分钟之内就能转换完毕。http://2a.zol-img.com.cn/product/53_500x2000/140/ceCE5qzSzXVhE.png
打开CUDA加速之后的转码  毫无疑问,暴风转码1.0正式版是目前支持格式最齐全、转换速度最快、支持输出设备最多、操作最简单、功能最强大的视频转换软件。与它的“老大哥”暴风影音一样,它的出现颠覆了市场格局——终结了速度缓慢、高资源占用、兼容性差、用户体验不好的历史。再加上“暴风”的强大品牌效应和“完全免费”这张王牌,可以断定,暴风转码将刮起一阵旋风,成为最受欢迎的视频转码软件。

吸血大魔王 发表于 2010-10-20 18:08:23

● GPU通用计算-Media Coder NT for CUDA      MediaCoder是一个免费的通用影音转码工具,它将众多来自开源社区的优秀音频视频编解码器和工具进行整合,让用户可以自由地转换音频和视频文件,可满足各种场合下的转码需求。软件自2005年问世以来,被全球广大多媒体爱好者广泛使用,曾经入围SourceForge.net优秀软件项目,被众多网站和报刊杂志介绍和推荐,其中包括:《CNET》、《PC World》、《ZDnet》、《USA Today》、《New York Times》、印度《Techtree》、德国《Der Spiegel》、德国《Bild》、德国《La Nación》、墨西哥《El Universal》、泰国《Bangkok Post》、德国《Chip》、俄罗斯《Computerra》。
http://2e.zol-img.com.cn/product/52_500x2000/326/ceDu97VxK9na2.png
软件识别GF106计算能力为2.1版本http://2a.zol-img.com.cn/product/52_500x2000/328/ceuORzoV0wuzE.png
软件仅能使用到CPU的4线程http://2f.zol-img.com.cn/product/52_500x2000/327/cezg6bIMY9nsk.png
编码时间为16秒      对于MediaCoder NT这款针对CUDA变成的软件,对于所有N卡用户来说都是一个好消息。      我们使用GeForce GTS 450 875MHz/1750MHz/4000MHz产品进行测试,由于该款软件对Shader频率极为敏感,所以1750MHz的频率作用下仅耗时16秒,这个成绩要比GeForce GTX 460公版频率产品的20秒要快。

吸血大魔王 发表于 2010-10-20 18:08:56

● GTS450实战Adobe Photoshop    Adobe Photoshop CS4、Adobe After Effects CS4、Adobe Premiere Pro CS4三款软件支持CUDA技术。Adobe Photoshop CS4包含在Design Standard版本中,而Adobe After Effects CS4及Adobe Premiere Pro CS4则包含在Production Premium、Master Collection版本中。  Adobe After Effects适用于从事设计和视频特技的机构,包括电视台、动画制作公司、个人后期制作工作室以及多媒体工作室。通过CUDA技术,After Effects CS4可以实现诸如景深、双向模糊、有机纹理等特效,可以帮助开发人员迅速的将思维中的设计构想展示出来。
http://2d.zol-img.com.cn/product/53_500x2000/211/ce0yRAbGjL6SE.png
GTS450运行Adobe Photoshop CS4演示    NVIDIA给Fermi的定义是:新一代CUDA计算与图形架构。它采纳了用户在使用G80和GT200架构时给出的建议,针对双精度运算、ECC内存容错能力、Cache体系结构、上下文切换和原子读写操作等方面进行了全新的设计。    Fermi架构的GTX400系列产品通过新的架构设计不仅仅增加了计算能力,并且支持更好的可编程能力和计算效果。所以我们看到沿用了3代的流处理器概念,在Fermi架构中,已经被改为CUDA Cores,这再次说明NVIDIA对通用计算的重视程度。http://2b.zol-img.com.cn/product/53_500x2000/317/ceBlBF9RykqP.jpg
GTS450运行Adobe Photoshop CS4演示    勾选启用NVIDIA OPENGL绘图:并将下面高级设置中的所有选项都勾上,NVIDIA CUDA设备就开始为PHOTOSHOP CS4工作了。这里显示Adobe Photoshop CS4已经识别出我们的显卡。  Photoshop是我们都熟知的软件,在以下的两个视频中可以观察到使用GPU与CPU分别对图片进行局部缩放的不同,通过视频我们可以看到图片大小在100MB以上,在我们日常见到的图片中已属巨大。    开启GPU加速:    关闭GPU加速:  仔细观察你就会发现有无GPU加速之间的差距是如此的明显,在使用GPU加速时图片在放大缩小时可以做到完全的实时,非常的平滑,给人一种非常流畅的感觉,而没有使用GPU加速每次进行放大和缩小时都会先卡一下,而且在也不平滑,会发现画面在缩放时先是被切割成几个像素块,然后才能拼凑成操作后的样子。

吸血大魔王 发表于 2010-10-20 18:09:18

● Adobe Reader和Picasa图片软件   在最新的Adobe Reader 9软件中,NVIDIA显卡同样可以为用户提供硬件加速。对于行业用户来说,PhotoShop CS4中的硬件加速或许可以带来更好的回报,但是在Adobe Reader 9中,更流畅的阅读是用户对于生活的一种享受。

http://2f.zol-img.com.cn/product/53_500x2000/775/ceVKgEsbsBEjA.jpg
AAdobe软件家族已经拥有越来越多的GPU加速功能    通过Adobe Reader 9的编辑菜单可以到达首选项页面,而3D和多媒体子项中就是我们开启显卡硬件加速的部分了。在开启了Adobe Reader 9的GPU加速之后,阅读大图片的pdf文档不再像以往那样吃力,更流畅的阅读令用户更加舒适。
    这张图的左下角显示着“31”这个数字,常玩游戏的玩家肯定一眼就看出来这是FPS统计软件Fraps的帧数显示,一般说来都是在玩游戏的时候才出现,何以会在Adobe Acrobat reader里也会有呢?
http://2b.zol-img.com.cn/product/53_500x2000/777/ceDzHzPEsgB2.jpg
Adobe Reader 9界面    Fraps的原理就是绑定了若干图形API,不管是用D3D还是OpenGL,只要初始化了绘图窗口,Fraps就会把当前FPS画在窗口上。在这里出现只有一个可能:Adobe reader也使用了D3D来加速文档显示(在Preference的3D选项里是可以选择用Dx8、Dx9或者软加速)。毕竟现在的文档越来越复杂,使用显卡加速不失为一个提高文档浏览速度的好方法。
  从Google开发的Picasa图片浏览和处理工具及Google Earth的GPU加速,到游戏中采用的PhysX物理加速技术;从Photoshop cs4的GPU浏览加速技术到视频转码的Badaboom软件,小到浏览图片,大到天文数据计算,随着CUDA的应用越来越广泛,它我们的生活也变得越来越交融。 http://2f.zol-img.com.cn/product/53_500x2000/817/ceS1NGunIrHs.jpg
Picasa图片浏览及编辑器  其中不能不提到Google所开发的Picasa图片浏览及编辑器,以及Google Earth这款号称“上帝之眼”的地图软件。   Google作为世界首屈一指的网络IT巨头,也被NVIDIA的CUDA并行运算架构所吸引,连续推出两款支持CUDA图形核心加速功能的著名软件就是最好的明证,而在使用了Acer AspireRevo之后我们可以开启这些功能,这是未采用CUDA架构的硬件所不具备的,这也是Acer AspireRevo的优势、同样也是NVIDIA产品的优势所在。

吸血大魔王 发表于 2010-10-20 18:09:40

● Folding@home运算测试  Folding@home是一个研究蛋白质折叠,误折,聚合及由此引起的相关疾病的分布式计算项目。我们使用联网式的计算方式和大量的分布式计算能力来模拟蛋白质折叠的过程,并指引我们近期对由折叠引起的疾病的一系列研究,找到相关疾病的发病原因和治疗方法。
  Folding@home能了解蛋白质折叠、误折以及相关的疾病。目前进行中的研究有:癌症、阿兹海默症(老年失智症)、亨廷顿病、成骨不全症、帕金森氏症、核糖体与抗生素。

http://2d.zol-img.com.cn/product/52_500x2000/229/ceW6MQ28Hr4TY.png  2006年9月底,ATI宣布了通用计算GPGPU架构,并得到了斯坦福大学Folding@Home项目的大力支持,加入了人类健康研究。2007年3月22日,PS3正式加入史丹佛大学分布式运算研究计划,至今已有超过百万名 PS3 玩家注册参与。NVIDIA于2008年6月宣布旗下基于G80及以上核心的显卡产品都支持该项目的通用计算,更是对分布式计算的重要贡献。
  Folding@home在自身定位明确、成功发展的基础下,通过斯坦福大学的大力推广,已经获得了全世界广泛认同。而近期PS3和GPU的参与更是将Folding@home的运算能力推向高峰。值得一提的是NVIDIA在2008年6月果断宣布加入Folding@home项目,至今已经为该项目提供了超过2 PFlops运算能力。
http://2c.zol-img.com.cn/product/52_500x2000/816/ceaNxIt3xkhQY.png
GTS450显卡运行Folding@Home项目    该项目在中国拥有约2000多名参与者,其中最强大的China Folding@Home Power(Folding@Home中国力量,团队编号3213)团队已经拥有2585人,最近活跃用户200人以上,目前贡献计算量排名世界第33位,团队整体运算能力约为80到100TFLOPS。
http://2e.zol-img.com.cn/product/53_500x2000/422/ceg2vIfS8tHec.png    Folding@home分布式计算项目偏重实际运算环境,这项测试是科学实用项目Folding@home项目,该项目使用了CUDA或者Stream加速的Gromacs引擎,NVIDIA的GPU架构由于流处理器设计原因,非常适合这种充满了大量跳转嵌套分支等指令的应用环境,我们的测试得到了非常理想的运算速度。    在这个项目中,我们添加了更多NVIDIA不同架构的显卡供大家对比,而斯坦福大学Folding@home项目方从HD5000开始尚未对AMD显卡提供支持,此前HD4870的PPD值为3400至4000之间。不过我们了解到GPU3客户端在今年正在努力为AMD显卡开发基于OpenCL接口的客户端。虽然我们了解到A卡架构已经显现出一定程度的老迈,但是该项目的支持者相信最早加入该项目的AMD不会放弃对这一经典GPU分布式计算项目的支持。
页: [1]
查看完整版本: 千元以下神级卡 GTS450 CUDA性能测试