今天笔者通过业内人士独家获取了第二代Fermi架构代号GF104芯片的详细规格,同时结合我们之前对于Fermi架构及其演变方向的分析,越来越多的信息已经浮出水面。从G80架构到GT200架构,NVIDIA除了摘得顶级性能桂冠之外,从来就没有在性能级市场上输给对手,本次的GF104芯片同样是一颗定位出色的产品。
下面就让我们结合之前收集的信息,将一颗GF104芯片的大概大概特性展示给大家:
1、原生384个和336个流处理器两个版本,每个GPC拥有3组SM单元;
2、显存容量1024MB和768MB两个版本,256bit或192bit位宽;
3、双精度计算能力废除,或者用SFU单元来实现;
4、TMU单元改进,TA和TF数量相等;
5、二级缓存被废除或者容量减少到512KB;
6、GF104芯片性能与GTX470相当,晶体管数量则不到20亿个;
7、整卡功耗在180W到225W之间,可轻松制造单卡双芯版本。
336个流处理器低端GF104核心曝光
本次公布的384个和336个CUDA核心,击碎了之前256个CUDA核心的传言,大幅度提升GF104芯片的性能,同时GF104由于晶体管集成度在20亿个左右,频率提升较为容易,发热和功耗也完全可控。NVIDIA已经开始寻找漏电和规模的平衡点,并取得了值得肯定的成绩。
上图中公布的频率只是目前的测试芯片频率,实际产品会有很大提升,这是GF104芯片带给NVIDIA最大的欣慰,以为只有频率才能线性地控制性能增减。
即将发布的258版驱动,则会在Computer Shader后处理、多线程渲染方面做进一步优化,以巩固已经领先A卡的DX11性能。同时逼迫AMD改进其架构设计,放弃堆流处理器带来的DX9和DX10性能增长,转而和NVIDIA对抗DX11性能。
为了让大家更好的理解从GF100芯片到GF104芯片的演化过程,我们将GF100芯片的功能单元做了屏蔽示意图,大家可以更容易地理解NVIDIA是如何做出一颗功耗和性能完美匹配的GPU芯片。
GF100到GF104芯片发展过程推测
GF104是一颗完全重新设计的GPU芯片,它同样拥有4个完整独立的GPC单元,但是每个单元内部有3组SM,而不是GF100的4组。这样就可以减少128个CUDA核心,CUDA单元是GPU的主体部分,对它的削减将会大幅度降低晶体管集成度。 在存储体系方面,GF104只有4组64位的显存控制器,因此晶体管得以节约。同时引起Fermi架构存储体系发生变化的L2缓存,在GF104芯片中将被取消或者减少到384KB。对于二级缓存的问题,目前还是有很大争议,毕竟这项设计最低限度用作缓存纹理都是一大笔财富,在图形处理中能发挥自己应有的作用,有人认为不应该删去。 双精度计算能力是否保留目前也在我们的讨论之中,我认为这项功能完全可以在GF104芯片中废除,但是也有人认为废除双精度运算能力并不能有效降低晶体管占用量。第一代Fermi架构GF100芯片是依靠CUDA单元和特殊单元配合来实现双精度能力,这种实现方式需要大量的RF寄存器资源才能保证双精度衰减的可控。在GF104芯片中,NVIDIA可能回归了GT200的SFU单元处理双精度模式,毕竟SFU单元本身可以执行连加和乘加,只是衰减比较明显。 
Texture纹理单元配置将迎来改变
在纹理性能方面,GF100的TA纹理寻址单元数量为64个,而TF纹理过滤单元则达到了256个,这个比例达到了前所未有的1:4。最终的结果是GF100的纹理性能并不能让人满意,大幅度落后于HD5870。此次NVIDIA添加了足够的TA资源,为的就是在纹理性能方面获得提升,同时这种设计对于晶体管的使用量比较小,完全在GF104芯片承受范围之内。 
GF104专用PCB设计
与过往产品不同的是这款GF104核心的形状为长方形,粗略估算其核心面积约达到GF100的60%左右;从设计图中可以明显看到GTX460的PCB长度比GTX465更加短,应该为3+1相供电设计,并预留了2个6pin供电接口位置。在接口方面应该也与之前的几款GTX400系列产品一致,配备双DVI+Mini-HDMI的接口模式。 |