NV新版CUDA4.0RC发布 新特性全面解析
首次宣布一周之后,NVIDIA今天公开发布了GPU通用计算开发包的CUDA 4.0 RC候选版,并提供给开发人员下载使用。如果你是一位GPU计算开发人员,或者对这方面有兴趣,可以在NVIDIA官方网站上注册并获得这个新的开发包,地址为:
http://developer.nvidia.com/object/cuda_4_0_RC_downloads.html
CUDA 4.0作为一个全新版本,功能特性自然增加了不少,主要涉及应用程序移植的简化、多GPU编程的加速、开发工具的增加和改进三个方面。下边我们就结合NVIDIA的官方演示文稿,一起看看CUDA 4.0的新特性。
http://2e.zol-img.com.cn/product/60_450x337/380/ce1L4JckJFQfI.png 从超级手机到超级计算机:NVIDIA正在将自己定位成一家“超级”计算公司,CUDA 4.0就是这条路上的重要里程碑。
http://2a.zol-img.com.cn/product/60_450x337/382/ceip1XWoD9Puk.png CUDA发展之路:2007年1.0版,只有研究人员和一些尝鲜者体验;次年升级为2.0版,吸引了科学家和高性能计算领域;2009年3.0版,掀起了应用程序创新的风潮;如今4.0版诞生,意味着将有更广泛的开发人员加入CUDA阵营。
http://2d.zol-img.com.cn/product/60_450x337/385/ce3XBGgVNXCM.png CUDA 4.0三大进步:应用程序移植的简化、多GPU编程的加速、开发工具的增加和改进。
http://2b.zol-img.com.cn/product/60_450x337/383/ceGcFqgv8i0aw.png 为了简化应用程序的移植,CUDA 4.0带来了统一虚拟寻址(UVA)、GPUDirect 2.0、Thrust C++模板化算法与数据结构。
http://2c.zol-img.com.cn/product/60_450x337/384/cegM0yQTeOMk.png CUDA 4.0支持多个线程共享一个或者多个GPU,同时单个主线程也可以访问所有GPU,可以充分发挥多GPU的联合优势,即使是单线程程序也能从多GPU中获得更好性能。
http://2f.zol-img.com.cn/product/60_450x337/381/ceOwiGW8ZW5E2.png 无需对系统内存进行精确的拷贝定位(No-copy Pinning),减少系统内存占用、避免过载,并且支持Windows、Linux系统和所有CUDA GPU。
http://2d.zol-img.com.cn/product/60_450x337/379/ceC5ETp4Odmfs.png C/C++语言方面也增加了新特性,包括新建/删除、虚拟功能和Inline PTX等等。
http://2c.zol-img.com.cn/product/60_450x337/378/ceTiRaMo7pmls.png Thrust C++模板化算法与数据结构,强大的开源C++并行算法和数据结构,类似C++ STL标准模板库;可在编译时自动选择最快的代码路径,在多核心CPU与GPU之间分配工作,编译速度加快5-10倍。
http://2c.zol-img.com.cn/product/60_450x337/360/ce3naqdJzOwtM.png GPU加速图形处理:全新的NVIDIA Performance Primitives NPP函数库,图像处理加速10-36倍。
http://2f.zol-img.com.cn/product/60_450x337/375/ceLyziCn85F.png 层纹理:适合以标准尺寸、格式处理多重纹理,性能更快,而且不会出现采样残影。
http://2a.zol-img.com.cn/product/60_450x337/376/ceaEtF8N73w6.pnghttp://2b.zol-img.com.cn/product/60_450x337/377/cemnlPA1mOyVY.png 旧版的GPUDirect 1.0主要用于应用程序在网络间通信,新版的GPUDirect 2.0则转入节点内通信,支持P2P内存访问、传输和同步,代码更少,编程效率更高。
http://2b.zol-img.com.cn/product/60_450x337/371/cec9JxoUPCjew.png 在此之前,同一节点内的不同GPU互相访问,需要绕道系统内存并进行两次拷贝。
http://2d.zol-img.com.cn/product/60_450x337/373/ceDUrV7QWDOo.png 现在就不用理会系统内存了,不同GPU可以直接进行传输,一次拷贝搞定。
http://2c.zol-img.com.cn/product/60_450x337/372/ceQ2NOpT1qrUg.png 不过要注意,GPUDirect 2.0仅支持Fermi费米架构的Tesla 20系列高性能计算卡,而且需要64位的Linux、Windows操作系统。
http://2a.zol-img.com.cn/product/60_450x337/370/cewbm1aJ2rPIU.png 统一虚拟寻址:之前系统内存、GPU显存都是彼此互相独立的,现在则融合在一起,为所有CPU、GPU提供单个统一的寻址空间。
http://2f.zol-img.com.cn/product/60_450x337/381/ceOwiGW8ZW5E2.png 但是这项技术也有同样的限制,只适用于Fermi Tesla 20系列和64位系统。
http://2f.zol-img.com.cn/product/60_450x337/369/cePdhOS0VUZjM.png
http://2b.zol-img.com.cn/product/60_450x337/365/ceuhLk4KHLG.png 开发工具方面首先是可视化编译器的自动性能分析,并为内核分析提供了新的用户界面。
http://2c.zol-img.com.cn/product/60_450x337/366/ceW1x37u3TbNY.png cuda-gdb调试同样增加了大量新功能,尤其是Fermi架构支持GPU Binary拆分。
http://2a.zol-img.com.cn/product/60_450x337/358/cerJIiKxrrDYk.png 而且操作系统支持在Linux的基础上增加了苹果Mac OS。
http://2f.zol-img.com.cn/product/60_450x337/363/cefrLIlY6i8c.png 此外NVIDIA还提供了新的专业开发工具Parallel Nsight Pro 1.5,这是业界第一个针对微软Visual Studio的GPU加速应用开发环境。
http://2d.zol-img.com.cn/product/60_450x337/367/ceQgACbY4OLoY.png
CUDA特性总览http://2a.zol-img.com.cn/product/60_450x337/364/cerDffKCMxQY.png
CUDA注册开发人员项目
http://2e.zol-img.com.cn/product/60_450x337/362/cecTbfkvZ0QRY.png
NVIDIA CUDA开发资源http://2c.zol-img.com.cn/product/60_450x337/360/ce3naqdJzOwtM.png
CUDA第三方生态系统http://2b.zol-img.com.cn/product/60_450x337/359/ceoaxX1mfRmrA.png
CUDA计算研究与教育http://2d.zol-img.com.cn/product/60_450x337/361/ceRlmeVT6.png
PGI CUDA-x86编译器http://2f.zol-img.com.cn/product/60_450x337/357/ceDa9VZG4WNRg.png
GTC 2011技术大会 http://2e.zol-img.com.cn/product/60_450x337/356/ce4C6BpHFmM.png
页:
[1]