Выделение 2D-массива в памяти устройства в CUDA
-
20-08-2019 - |
Вопрос
Как мне выделить и передать (на хост и с хоста) 2D-массивы в памяти устройства в Cuda?
Решение
Я нашел решение этой проблемы.Мне не пришлось сглаживать массив.
Встроенный cudaMallocPitch()
функция выполнила свою работу.И я мог бы перенести массив на устройство и обратно, используя cudaMemcpy2D()
функция.
Например
cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);
Это создает двумерный массив размером a*b с шагом, переданным в качестве параметра.
Следующий код создает 2D-массив и циклически перебирает его элементы.Он легко компилируется, вы можете его использовать.
#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50
// Device code
__global__ void kernel(float* devPtr, int pitch)
{
for (int r = 0; r < height; ++r) {
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
}
//Host Code
int main()
{
float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}
Другие советы
Сгладьте это:сделайте его одномерным.Посмотрите, как это сделано здесь
Код вашего устройства мог бы быть быстрее.Попробуйте больше использовать нити.
__global__ void kernel(float* devPtr, int pitch)
{
int r = threadIdx.x;
float* row = (float*)((char*)devPtr + r * pitch);
for (int c = 0; c < width; ++c) {
float element = row[c];
}
}
Затем вы рассчитываете соответствующее распределение блоков и потоков так, чтобы каждый поток имел дело с одним элементом.