当前位置:网站首页>share memory的bank conflict分析
share memory的bank conflict分析
2022-04-22 15:01:00 【s.feng】
背景
在做高性能分析的时候,经常会出现一个什么bank conflict的名词,不仅是GPU的share memory会出现bank confict, 甚至连寄存器也会出现bank conflict, 那么这个是什么东西,下面进行一个系统的梳理。
硬件

从事计算机行业的同学肯定见过这个东西,没错这个玩意就是内存条,上面的小黑块就是内存颗粒,每一片称之为chip. 有兴趣的可以拆开自己的电脑看一下,这个chip大约有1mm左右的厚度,我们知道现在的半导体工艺一般都是纳米级别,所以这1mm后的内存,其实是由很多薄片累加一起的,每一个薄片叫做一个bank.图示如下:

接下来,每一个矩形bank可以继续拆成一个个二维的小方格,每次从一个bank取数和存数的话只有通过一根线(现在很多内存开了两个端口,分别做存数和取数),如果两个数据分布在不同的bank上(bank序列挨得近),那么一把就可以取出两个数据,如果两个数据在一个bank上,那么耗时就是2倍,因为只能串行拿出,也就是我们说的bank conflict,具体示意图如下,好了,硬件理解到这个程度已经可以了,下面来分析分析cuda中的share memory。

share_memory
share memory相比较device memory而言,share memory是在GPU芯片上的,而device memory是通过总线链接到GPU芯片上的,所以性能的高低一目了然,为此我们尽量要使用好share memory。share memory 有32个bank, 可以自己脑补上面图示的bank, 每一个小格子里面放4字节(也可以自己设置为8)大小的数据(int ,float),)被划分到32个bank中,每个bank的内存能同时读写(有两个port),但是同一个bank的不同地址的数据则只能串行读写, 如果不容线程访问一个bank的一个地址也没问题,根据上面图示可以看到可以把一个数据放到不同的buffer里。例如__shared__ float data[32][32],申请了1024个float数据,每个float正好是4字节,data按行存储,data[0][0]就位于第0个bank,data[0][1]位于第一个bank,以此类推.因此data[0][col]就被划分在了第col个bank中,即列数相同(data[0][1]和data[5][1])的数据划分至了同一个bank中(自己脑补上面bank位置).如果一个warp的线程按列处理data那么就会造成bank conflict.
测试
#define WARPSIZE 32
//conflict
__global__ void kernel1(float* A) {
__shared__ float data[32][32];
int tid = threadIdx.x;
int col = tid/WARPSIZE;
int row = tid%WARPSIZE;//为了测试同一个warp的memory bank conflict, 这里连续的线程要处理不同行,但是同一列的数据。
data[row][col] = 1.f;
A[tid] = data[row][col];
}
//noconflict
__global__ void kernel2(float* A) {
__shared__ float data[32][32];
int tid = threadIdx.x;
int row = tid/WARPSIZE;
int col = tid%WARPSIZE;
data[row][col] = 1.f;
A[tid] = data[row][col];
}
整体测试代码:
#include<stdio.h>
#include<time.h>
#define WARPSIZE 32
__global__ void kernel1(float* A) {
__shared__ float data[32][32];
int tid = threadIdx.x;
int col = tid/WARPSIZE;
int row = tid%WARPSIZE;
data[row][col] = 100.f;
A[tid] = data[row][col];
}
__global__ void kernel2(float* A) {
__shared__ float data[32][32];
int tid = threadIdx.x;
int row = tid/WARPSIZE;
int col = tid%WARPSIZE;
data[row][col] = 100.f;
A[tid] = data[row][col];
}
int main() {
int blocksize = 32*32;
float* h_A = (float*)malloc(sizeof(float)*blocksize);
float* d_A;
cudaMalloc(&d_A, sizeof(float)*blocksize);
kernel1<<<1, blocksize>>>(d_A);
cudaDeviceSynchronize();
cudaMemcpy(h_A, d_A, blocksize*sizeof(float), cudaMemcpyDeviceToHost);
kernel2<<<1, blocksize>>>(d_A);
cudaDeviceSynchronize();
cudaMemcpy(h_A, d_A, blocksize*sizeof(float), cudaMemcpyDeviceToHost);
cudaFree(d_A);
free(h_A);
return 0;
}
编译:
nvcc -O3 bankconflict.cu -o bankconflict
分析
利用下面命令分析耗时:
nvprof ./bankconflict
利用下面代码分析冲突事件:
nvprof --events shared_ld_bank_conflict,shared_st_bank_conflict ./bankconflict
可以得到下面的结果:

可以看到存数据(shared_st_bank_conflict=store bank conflict)的时候,会有992=31*32个冲突,因为每一个warp中的线程第一个线程是没有冲突的,所以是31*32,和预期的一模一样。不过这里有一个问题,kernel1最后执行了A[tid] = data[row][col],按道理来说应该也存在load bank conflict.但是为什么使用nvprof显示的结果却没有呢?
原因是我们编译的时候使用了-O3编译优化,编译器优化了我们的程序,减少了bank conflict的次数.可以通过禁止编译优化来观察结果,重新编译.
nvcc -g -G bankconflict.cu -o bankconflict
测试:
nvprof --events shared_ld_bank_conflict,shared_st_bank_conflict ./bankconflict

参考:https://www.cnblogs.com/deepllz/p/11490544.html
版权声明
本文为[s.feng]所创,转载请带上原文链接,感谢
https://blog.csdn.net/feng__shuai/article/details/124323779
边栏推荐
- 【世界地球日】华为云云市场 | 用科技见证自然的美好改变
- OpenVINO使用介绍
- Go language introduction, environment installation, basic structure
- Rip introduction
- leetcode面试题 17.16. 按摩师(简单)
- 学习记录568@RSA公钥体系及其解密证明方式二
- Phase I * Chapter IV * general knowledge of project management
- 阿里云IoT流转到postgresql数据库方案
- net::ERR_ INCOMPLETE_ CHUNKED_ Encoding 200 El expression string splicing
- 2021年漏洞利用状况:已公开的传统漏洞占95%
猜你喜欢
随机推荐
Llvm founder Chris LATTNER reviews and looks forward to the compiler
SMB+MSSQL
这两种人是做不好自媒体的,一辈子都赚不到大钱
一个青年的初识
Android UI - zoomcontrols zoom in and out pictures, Android interview resume template
Development trend of C in 2022
【世界地球日】华为云云市场 | 用科技见证自然的美好改变
Rip introduction
情报研判分析平台建设,情指勤一体化管理系统开发
[mydatanotis.08001] mydatagrid connection error
In the second half of the smart watch, opportunities and challenges coexist
不用真人露脸拍视频,方法在这里,做自媒体20天4561
带你了解极具弹性的Spark架构的原理
border-collapse 为collapse的时候,为什么最外面框的padding不起作用了
【ORB_SLAM2源码解读】分析ORB_SLAM2 RGBD 第0帧是怎么计算位置姿态的
Android护眼功能,双非本科字节跳动Android面试题分享
[interpretation of orb_slam2 source code] Analyze orb_ How is the position and attitude calculated in the first frame of slam2 rgbd
C语言的基本练习(002-1)
[ELT. Zip] openharmony paper Club - you shouldn't miss these small landscapes
Leetcode interview question 17.16 Masseur (simple)









