Pegado a por qué mi kernel OpenCL no ejecutará con los parámetros particulares

https://stackoverflow.com/questions/4305133

29-09-2019
|

Pregunta

Tengo un kernel OpenCL que corro en JOCL y pasa todas mis pruebas JUnit. Porté mi código en C ++ por lo que podría perfilar el kernel en las mismas condiciones. El controlador funciona bien en todos los casos excepto uno. Se ejecuta perfectamente bien en JOCL así que creo que algo en mi código C ++ es erróneo. Mi código está por debajo, He auditado a la muerte. Si alguien me puede ayudar diviso lo que está mal lo agradecería.

El código del controlador funciona bien con args 1 y 2 como 8192, Arg 3 como 512. También funciona bien con args 1 y 2 como 512 y arg 3 como 8192. Arg 4 siempre está a 1, que establece que el núcleo numeros reales. Cuando fijo args 1 y 2 para 262144 y Arg 3 a 16, se ejecuta, se informa de ningún error, ningún fallo seg, pero el núcleo no cambia los datos en el final. Nota que arg 1 * 3 en todos los casos arriba es igual a 2 ^ 22. Creo que estoy asignando la misma cantidad de flotadores en todos los casos. Estoy confundido. No puedo conseguir OpenCL que me diga lo que está mal: (

void HelperFunctions::callKernel(int windowSize, int primitivesPerDataFrame, int nInFramesThisCall, int realOrComplex)
{
// OpenCL Vars
cl_platform_id platform;       // OpenCL platform
cl_device_id device;           // OpenCL device
cl_context gpuContext;         // OpenCL context
cl_command_queue commandQueue; // OpenCL command queue
cl_program clProgram;           // OpenCL program
cl_kernel clkernel;             // OpenCL kernel
void *dataHostBuffer;        // Host buffer
void *windowDataHostBuffer;        // Host buffer
cl_mem inData;   // OpenCL device buffer
cl_mem windowData;  // OpenCL device source buffer
size_t szKernelLength;        // Byte size of kernel code
cl_int errCode;                // Error code var

long gridX = 256;
long gridY = 16384;
long gridZ = 1;
size_t global_work_size[] = {gridX, gridY, gridZ};
size_t local_work_size[] = {gridX, 1, 1};
const char* cSourceCL = NULL;     // Buffer to hold source for compilation

// Allocate and initialize host arrays
dataHostBuffer = (void *)malloc(sizeof(cl_float) * primitivesPerDataFrame * nInFramesThisCall);
windowDataHostBuffer = (void *)malloc(sizeof(cl_float) * windowSize);

//Populate the data buffers
dataHostBuffer = generateRampData(primitivesPerDataFrame * nInFramesThisCall);

windowDataHostBuffer = blackman(windowSize);

//Get an OpenCL platform
errCode = clGetPlatformIDs(1, &platform, NULL);
cout << "Error Code: " << errCode << endl;

//Get the devices
errCode = clGetDeviceIDs(platform, CL_DEVICE_TYPE_GPU, 1, &device, NULL);
cout << "Error Code: " << errCode << endl;

//Create the context
gpuContext = clCreateContext(0, 1, &device, NULL, NULL, &errCode);
cout << "Error Code: " << errCode << endl;

// Create a command-queue
commandQueue = clCreateCommandQueue(gpuContext, device, 0, &errCode);

// Read the OpenCL kernel in from source file
cSourceCL = oclLoadProgSource("/home/djkasht/workspaceBlueprint/bp/bp-trunk/bundles/CopperShark/src/coppershark/dsp/blocks/opencl/dsp/window/Window.cl", "", &szKernelLength);

szKernelLength = strlen(cSourceCL);
// Create the program
clProgram = clCreateProgramWithSource(gpuContext, 1, (const char **)&cSourceCL, &szKernelLength, &errCode);
cout << "Error Code: " << errCode << endl;

// Build the program
errCode = clBuildProgram(clProgram, 0, NULL, NULL, NULL, NULL);
cout << "Error Code: " << errCode << endl;

size_t log_size = 1000000 * sizeof(char);
char build_log[log_size];
size_t len;
errCode = clGetProgramBuildInfo(clProgram, device, CL_PROGRAM_BUILD_LOG, log_size, build_log, &len);
cout << build_log << endl;

// Create the kernel
clkernel = clCreateKernel(clProgram, "window", &errCode);
cout << "Error Code: " << errCode << endl;

// Allocate the OpenCL buffer memory objects
inData = clCreateBuffer(gpuContext, CL_MEM_READ_WRITE, sizeof(cl_float) * primitivesPerDataFrame * nInFramesThisCall, NULL, &errCode);
cout << "Error Code: " << errCode << endl;
windowData = clCreateBuffer(gpuContext, CL_MEM_READ_ONLY, sizeof(cl_float) * windowSize, NULL, &errCode);
cout << "Error Code: " << errCode << endl;

// Set the Argument values
errCode = clSetKernelArg(clkernel, 0, sizeof(cl_mem), (void*)&inData);
cout << "Error Code: " << errCode << endl;
errCode = clSetKernelArg(clkernel, 1, sizeof(cl_mem), (void*)&windowData);
cout << "Error Code: " << errCode << endl;
errCode = clSetKernelArg(clkernel, 2, sizeof(cl_int), (void*)&windowSize);
cout << "Error Code: " << errCode << endl;
errCode = clSetKernelArg(clkernel, 3, sizeof(cl_int), (void*)&primitivesPerDataFrame);
cout << "Error Code: " << errCode << endl;
errCode = clSetKernelArg(clkernel, 4, sizeof(cl_int), (void*)&nInFramesThisCall);
cout << "Error Code: " << errCode << endl;
errCode = clSetKernelArg(clkernel, 5, sizeof(cl_int), (void*)&realOrComplex);
cout << "Error Code: " << errCode << endl;

// Asynchronous write of data to GPU device
errCode = clEnqueueWriteBuffer(commandQueue, inData, CL_FALSE, 0, sizeof(cl_float) * primitivesPerDataFrame * nInFramesThisCall, dataHostBuffer, 0, NULL, NULL);
cout << "Error Code: " << errCode << endl;

// Synchronous/blocking read of results, and check accumulated errors
errCode = clEnqueueWriteBuffer(commandQueue, windowData, CL_FALSE, 0, sizeof(cl_float) * windowSize, windowDataHostBuffer, 0, NULL, NULL);
cout << "Error Code: " << errCode << endl;

errCode = clEnqueueNDRangeKernel(commandQueue, clkernel, 3, NULL, &(global_work_size[0]), &(local_work_size[0]), 0, NULL, NULL);
cout << "Error Code: " << errCode << endl;

void* dataHostBuffer2 = (void *)malloc(sizeof(cl_float) * primitivesPerDataFrame * nInFramesThisCall);
errCode = clEnqueueReadBuffer(commandQueue, inData, CL_TRUE, 0, sizeof(cl_float) * primitivesPerDataFrame * nInFramesThisCall, dataHostBuffer2, 0, NULL, NULL);

}

Solución

UPDATE, lo he descubierto! El problema está en mi núcleo. Yo uso de memoria constante. Mi código Java da cuenta de esto y textualmente manipula el código de modo que si mi tamaño de búfer para arg 2> 16384, cambia la __constant a __global. Debería haber sabido esto, pero se me olvidó ...

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow