質問
特別なフラグなしでcubinファイルにコンパイルするCUDAカーネルがあります:
nvcc text.cu -cubin
コンパイルは行われますが、次のメッセージが表示されます:
アドバイス:グローバルメモリ領域を想定して、ポインターが指しているものを判別できない
および一時的なcppファイルの行への参照。これは、私には意味のない一見arbitrary意的なコードをコメントアウトすることで機能します。
カーネルは次のとおりです。
__global__ void string_search(char** texts, int* lengths, char* symbol, int* matches, int symbolLength)
{
int localMatches = 0;
int blockId = blockIdx.x + blockIdx.y * gridDim.x;
int threadId = threadIdx.x + threadIdx.y * blockDim.x;
int blockThreads = blockDim.x * blockDim.y;
__shared__ int localMatchCounts[32];
bool breaking = false;
for(int i = 0; i < (lengths[blockId] - (symbolLength - 1)); i += blockThreads)
{
if(texts[blockId][i] == symbol[0])
{
for(int j = 1; j < symbolLength; j++)
{
if(texts[blockId][i + j] != symbol[j])
{
breaking = true;
break;
}
}
if (breaking) continue;
localMatches++;
}
}
localMatchCounts[threadId] = localMatches;
__syncthreads();
if(threadId == 0)
{
int sum = 0;
for(int i = 0; i < 32; i++)
{
sum += localMatchCounts[i];
}
matches[blockId] = sum;
}
}
行を置き換えた場合
localMatchCounts[threadId] = localMatches;
この行で最初のforループの後
localMatchCounts[threadId] = 5;
通知なしでコンパイルします。これは、行の上のループのランダムに見える部分をコメント化することでも実現できます。また、ローカルメモリアレイを通常のアレイに置き換えてみましたが、効果はありません。誰が問題を教えてもらえますか?
システムはVista 64ビットで、その価値は高い。
編集:実際に動作するようにコードを修正しましたが、それでもコンパイラー通知が生成されます。少なくとも正確性に関しては、警告が問題であるようには見えません(パフォーマンスに影響する可能性があります)。
解決
char **のようなポインタの配列は、カーネルがホストのメモリにアクセスできないため、カーネルでは問題があります。
単一の連続バッファを割り当てて、並列アクセスを可能にする方法で分割することをお勧めします。
この場合、次々に配置されたすべての文字列を含む1D配列と、最初の配列内の各文字列のオフセットとその長さを含む2 * numberOfStringsサイズの別の1D配列を定義します:
例-カーネルの準備:
char* buffer = st[0] + st[1] + st[2] + ....; int* metadata = new int[numberOfStrings * 2]; int lastpos = 0; for (int cnt = 0; cnt < 2* numberOfStrings; cnt+=2) { metadata[cnt] = lastpos; lastpos += length(st[cnt]); metadata[cnt] = length(st[cnt]); }カーネル内:
currentIndex = threadId + blockId * numberOfBlocks; char* currentString = buffer + metadata[2 * currentIndex]; int currentStringLength = metadata[2 * currentIndex + 1];
他のヒント
問題はchar **パラメーターに関連しているようです。これをchar *に変更すると警告が解決されたため、この形式のデータでcudaに問題がある可能性があります。おそらくcudaは、この場合、特定のcuda 2D配列を使用することを好みます。