CUDAのデバイスメモリ上の2次元配列を割り当てます

https://stackoverflow.com/questions/1047369

20-08-2019
|

質問

どのように私はクーダにデバイスメモリに割り当てると転送（ホストとの）2次元アレイのですか？

解決

私は、この問題に対する解決策を見つけました。私は配列をフラット化する必要はありませんでした。

作り付けcudaMallocPitch()機能は、仕事をしてくれました。そして、私はcudaMemcpy2D()機能を使用してデバイスにしてから、アレイを転送することができます。

例

cudaMallocPitch((void**) &array, &pitch, a*sizeof(float), b);

パラメータとして渡される

このサイズの2次元アレイピッチ* Bを作成します。

次のコードは、2次元配列を作成し、要素をループ。それはあなたがそれを使用することができ、容易にコンパイルします。

#include<stdio.h>
#include<cuda.h>
#define height 50
#define width 50

// Device code
__global__ void kernel(float* devPtr, int pitch)
{
    for (int r = 0; r < height; ++r) {
        float* row = (float*)((char*)devPtr + r * pitch);
        for (int c = 0; c < width; ++c) {
             float element = row[c];
        }
    }
}

//Host Code
int main()
{

float* devPtr;
size_t pitch;
cudaMallocPitch((void**)&devPtr, &pitch, width * sizeof(float), height);
kernel<<<100, 512>>>(devPtr, pitch);
return 0;
}

他のヒント

それを平らに：それは一次元にします。参照してくださいどのように行うのここを

あなたのデバイスコードは、より高速である可能性があります。スレッドが複数を利用してみます。

__global__ void kernel(float* devPtr, int pitch)
{
    int r = threadIdx.x;

    float* row = (float*)((char*)devPtr + r * pitch);
    for (int c = 0; c < width; ++c) {
         float element = row[c];
    }
}

単一の要素を持つ各スレッドが取引するように

次に、あなたはブロックとスレッドの割り当て適切に計算します。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow