分配在CUDA设备内存2D阵列
-
20-08-2019 - |
题
如何分配和转移(向和从主机)2D阵列在设备内存在CUDA中?
解决方案
我找到了解决这个问题。我没有扁平化阵列。
在内置函数cudaMallocPitch()
做的工作。我可以在阵列传输到和从设备使用cudaMemcpy2D()
功能。
例如
cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);
此产生大小的2D阵列与所述俯仰A * B为通过,在作为参数。
下面的代码创建一个二维数组并遍历的元素。它编译容易,可以使用它。
#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50
// Device code
__global__ void kernel(float* devPtr, int pitch)
{
for (int r = 0; r < height; ++r) {
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
}
//Host Code
int main()
{
float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}
其他提示
拼合它:使一维的。看看它是如何做的这里
您的设备代码可能会更快。尝试利用螺纹更
__global__ void kernel(float* devPtr, int pitch)
{
int r = threadIdx.x;
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
然后,你计算块和线程分配适当,使得用单个元件的每个线程的交易。
不隶属于 StackOverflow