Asignar matriz 2D en la memoria del dispositivo en CUDA

https://stackoverflow.com/questions/1047369

20-08-2019
|

Pregunta

¿Cómo asigno y transfiero (desde y hacia el Host) matrices 2D en la memoria del dispositivo en Cuda?

Solución

Encontré una solución a este problema. No tuve que aplanar la matriz.

La función incorporada cudaMallocPitch() hizo el trabajo. Y podría transferir la matriz hacia y desde el dispositivo usando la función cudaMemcpy2D().

Por ejemplo

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

Esto crea una matriz 2D de tamaño a * b con el tono que se pasa como parámetro.

El siguiente código crea una matriz 2D y recorre los elementos. Se compila fácilmente, puede usarlo.

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

Otros consejos

Aplanarlo: hacerlo unidimensional. Vea cómo se hace aquí

El código de su dispositivo podría ser más rápido. Intenta utilizar más los hilos.

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

Luego calcula la asignación de bloques y subprocesos adecuada para que cada subproceso trate con un solo elemento.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow