GPU CUDA之——深入理解threadIdx

news/2024/11/9 12:56:39 标签: python

http://blog.csdn.net/canhui_wang/article/details/51730264

摘要

本文主要讲述CUDA的threadIdx。

 

1. Grid,Block和Thread三者的关系

其中,一个grid包含多个blocks,这些blocks的组织方式可以是一维,二维或者三维。任何一个block包含有多个Threads,这些Threads的组织方式也可以是一维,二维或者三维。举例来讲:比如上图中,任何一个block中有10个Thread,那么,Block(0,0)的第一个Thread的ThreadIdx是0,Block(1,0)的第一个Thread的ThreadIdx是11;Block(2,0)的第一个Thread的ThreadIdx是21,......,依此类推,不难整理出其中的映射公式(表达式已在代码中给出)。

 

2. GridID,BlockID,ThreadID三者的关系

ThreadID是线性增长的,其目的是用于在硬件和软件上唯一标识每一个线程。CUDA程序中任何一个时刻,每一个线程的ThreadIdx都是特定唯一标识的!grid,block的划分方式不同,比如一维划分,二维划分,或者三维划分。显然,Threads的唯一标识ThreadIdx的表达方式随着grid,block的划分方式(或者说是维度)而不同。下面通过程序给出ThreadIdx的完整的表达式。其中,由于使用的时候会考虑到GPU内存优化等原因,代码可能也会有所不同,但是threadId的计算的表达式是相对固定的。

 

[cpp]  view plain  copy
  1. /**************************************************************/  
  2. // !!!!!!!!!!!!!!注意!!!!!!!!!!!!!!!!  
  3. /**************************************************************/  
  4. // grid划分成a维,block划分成b维,  
  5. // 等价于  
  6. // blocks是a维的,Threads是b维的。  
  7. // 这里,本人用的是第一中说法。  
  8. /**************************************************************/  
  9.   
  10.   
  11. // 情况1:grid划分成1维,block划分为1维。  
  12. __device__ int getGlobalIdx_1D_1D() {  
  13.     int threadId = blockIdx.x *blockDim.x + threadIdx.x;  
  14.     return threadId;  
  15. }  
  16.   
  17. // 情况2:grid划分成1维,block划分为2维。  
  18. __device__ int getGlobalIdx_1D_2D() {  
  19.     int threadId = blockIdx.x * blockDim.x * blockDim.y  
  20.         + threadIdx.y * blockDim.x + threadIdx.x;  
  21.     return threadId;   
  22. }  
  23.   
  24. // 情况3:grid划分成1维,block划分为3维。  
  25. __device__ int getGlobalIdx_1D_3D() {  
  26.     int threadId = blockIdx.x * blockDim.x * blockDim.y * blockDim.z  
  27.         + threadIdx.z * blockDim.y * blockDim.x  
  28.         + threadIdx.y * blockDim.x + threadIdx.x;  
  29.     return threadId;  
  30. }  
  31.   
  32. // 情况4:grid划分成2维,block划分为1维。  
  33. __device__ int getGlobalIdx_2D_1D() {  
  34.     int blockId = blockIdx.y * gridDim.x + blockIdx.x;  
  35.     int threadId = blockId * blockDim.x + threadIdx.x;  
  36.     return threadId;  
  37. }  
  38.   
  39. // 情况5:grid划分成2维,block划分为2维。  
  40. __device__ int getGlobalIdx_2D_2D() {  
  41.     int blockId = blockIdx.x + blockIdx.y * gridDim.x;  
  42.     int threadId = blockId * (blockDim.x * blockDim.y)  
  43.         + (threadIdx.y * blockDim.x) + threadIdx.x;  
  44.     return threadId;  
  45. }  
  46.   
  47. // 情况6:grid划分成2维,block划分为3维。  
  48. __device__ int getGlobalIdx_2D_3D() {  
  49.     int blockId = blockIdx.x + blockIdx.y * gridDim.x;  
  50.     int threadId = blockId * (blockDim.x * blockDim.y * blockDim.z)  
  51.         + (threadIdx.z * (blockDim.x * blockDim.y))  
  52.         + (threadIdx.y * blockDim.x) + threadIdx.x;  
  53.     return threadId;  
  54. }  
  55.   
  56. // 情况7:grid划分成3维,block划分为1维。  
  57. __device__ int getGlobalIdx_3D_1D() {  
  58.     int blockId = blockIdx.x + blockIdx.y * gridDim.x  
  59.         + gridDim.x * gridDim.y * blockIdx.z;  
  60.     int threadId = blockId * blockDim.x + threadIdx.x;  
  61.     return threadId;  
  62. }  
  63.   
  64. // 情况8:grid划分成3维,block划分为2维。  
  65. __device__ int getGlobalIdx_3D_2D() {  
  66.     int blockId = blockIdx.x + blockIdx.y * gridDim.x  
  67.         + gridDim.x * gridDim.y * blockIdx.z;  
  68.     int threadId = blockId * (blockDim.x * blockDim.y)  
  69.         + (threadIdx.y * blockDim.x) + threadIdx.x;  
  70.     return threadId;  
  71. }  
  72.   
  73. // 情况9:grid划分成3维,block划分为3维。  
  74. __device__ int getGlobalIdx_3D_3D() {  
  75.     int blockId = blockIdx.x + blockIdx.y * gridDim.x  
  76.         + gridDim.x * gridDim.y * blockIdx.z;  
  77.     int threadId = blockId * (blockDim.x * blockDim.y * blockDim.z)  
  78.         + (threadIdx.z * (blockDim.x * blockDim.y))  
  79.         + (threadIdx.y * blockDim.x) + threadIdx.x;  
  80.     return threadId;  
  81. }  

 

 

3. GPU Threads与CPU Threads的比较

GPU Threads的生成代价小,是轻量级的线程;CPU Threads的生成代价大,是重量级的线程。CPU Threads虽然生成的代价高于GPU Threads,但其执行效率高于GPU Threads,所以GPU Threads无法在个体的比较上取胜,只有在数量上取胜。在这个意义上来讲,CPU Threads好比是一头强壮的公牛在耕地,GPU Threads好比是1000头弱小的小牛在耕地。因此,为了保证体现GPU并行计算的优点,线程的数目必须足够多,通常至少得用上1000个GPU线程或者更多才够本,才能很好地体现GPU并行计算的优点!

 

4. GPU Threads的线程同步

线程同步是针对同一个block中的所有线程而言的,因为只有同一个block中的线程才能在有效的机制中共同访问shared memory。要知道,由于每一个Thread的生命周期长度是不相同的,Thread对Shared Memory的操作可能会导致读写的不一致,因此需要线程的同步,从而保证该block中所有线程同时结束。


http://www.niftyadmin.cn/n/1560028.html

相关文章

android手机图片质量,安卓遭歧视?苹果朋友圈照片质量为何好很多

原标题:安卓遭歧视?苹果朋友圈照片质量为何好很多如果大家玩朋友圈比较多的话就会发现同一场景同一张图片,iPhone发出来总是比安卓手机要清晰不少,特别是有些买旗舰安卓机的用户,因为自己手机拍照还是挺好的啊&#xf…

STM32开发-MDK新建工程及配置

本人也是接触stm32没多久,之前用的MDK是5.1,现在用的是5.13,MDK5.0之前的版本(本人简称旧版)和之后的版本(本人简称新版)新建工程有很大区别。对于刚开始用学stm32的新手来说,基本上…

signature=f4d178e7ad48c68759122cbadf6ccfcc,Internal Digital Signature Enables Data Protection

摘要:Intraperitoneal injection of Leu-enkephalin (LENK, 10 or 7.5 mg/kg) induced bidirectional modulation of natural cytotoxic activities in spleens of CBA mice (suppression followed by enhancement). NK-cytotoxic activity was more affected than …

JSP jsp:useBean介绍

版权声明&#xff1a;本文为博主原创文章&#xff0c;转载请注明出处。 https://blog.csdn.net/twilight_karl/article/details/70214763 创建JavaBean实例&#xff1a; <jsp:useBean id”name” class”” scope”page/session/request/application”/> id为类的另一个名…

android恶意软件流量,基于流量分析的安卓恶意软件检测

摘要&#xff1a;随着智能手机行业的发展,人们在日常的工作学习生活中越来越离不开智能手机.Android系统作为流行度最高的智能手机系统之一,其安全性正受到越来越多恶意攻击者和安全研究者的关注.根据Zhou,Sarma和Yerima等人各自的研究,超过93%的Android恶意软件需要访问网络才…

Git操作----删除untracked files

# 删除 untracked files git clean -f# 连 untracked 的目录也一起删掉 git clean -fd# 连 gitignore 的untrack 文件/目录也一起删掉 &#xff08;慎用&#xff0c;一般这个是用来删掉编译出来的 .o之类的文件用的&#xff09; git clean -xfd# 在用上述 git clean 前&#xf…

html按钮点击改变颜色代码,点击按钮不能改变颜色

javascriptbody{font-size:12px;}#txt{height:400px;width:600px;border:#333 solid 1px;padding:5px;}p{line-height:18px;text-indent:2em;}JavaScript课程JavaScript为网页添加动态效果并实现与用户交互的功能。1. JavaScript入门篇&#xff0c;让不懂JS的你&#xff0c;快速…

jsp html5 预览word文档,JSP的详细完整笔记.doc

PAGE第 PAGE 19 页 共 NUMPAGES 19 页JSP(Java Server Page)JSP是服务器端运行的页面&#xff0c;JSP本就是一个文档&#xff0c;他不仅可以包含静态的HTML代码&#xff0c;也可以包含动态的JAVA代码&#xff0c;服务器容器可以将JSP转换成Servlet发布&#xff0c;并接受请求。…