Allocare matrice 2D sulla memoria del dispositivo in CUDA

https://stackoverflow.com/questions/1047369

20-08-2019
|

Domanda

Come posso allocare e trasferire (e da ospitare) array 2D nella memoria del dispositivo in Cuda?

Soluzione

Ho trovato una soluzione a questo problema. Non ho dovuto appiattire l'array.

La funzione cudaMallocPitch() integrata ha svolto il lavoro. E potrei trasferire l'array da e verso il dispositivo usando la funzione cudaMemcpy2D().

Ad esempio

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

Questo crea un array 2D di dimensioni a * b con il passo passato come parametro.

Il codice seguente crea un array 2D e scorre gli elementi. Si compila prontamente, è possibile utilizzarlo.

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

Altri suggerimenti

Appiattiscilo: rendilo unidimensionale. Guarda come è fatto qui

Il codice del dispositivo potrebbe essere più veloce. Prova a utilizzare di più i thread.

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

Quindi si calcola l'allocazione di blocchi e thread in modo che ogni thread si occupi di un singolo elemento.

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow