CUDA의 장치 메모리에 2D 배열을 할당하십시오

https://stackoverflow.com/questions/1047369

20-08-2019
|

문제

CUDA의 장치 메모리에 2D 어레이를 할당하고 전송하는 방법은 무엇입니까?

해결책

이 문제에 대한 해결책을 찾았습니다. 배열을 평평하게 할 필요가 없었습니다.

내장 cudaMallocPitch() 기능은 그 일을했습니다. 그리고 나는 배열을 cudaMemcpy2D() 기능.

예를 들어

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

이것은 피치가 매개 변수로 전달 된 2D 크기 A*B 배열을 만듭니다.

다음 코드는 2D 배열을 생성하고 요소를 통해 루프를 사용합니다. 쉽게 컴파일하면 사용할 수 있습니다.

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

다른 팁

평평하게 : 1 차원으로 만드십시오. 그것이 어떻게 끝났는지보십시오 여기

장치 코드가 더 빠를 수 있습니다. 스레드를 더 사용해보십시오.

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

그런 다음 각 스레드가 단일 요소를 처리하도록 적절한 블록 및 스레드 할당을 계산합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow