CUDA 中的随机数生成器

https://stackoverflow.com/questions/837955

10-07-2019
|

题

我一整天都在努力解决这个问题，我试图为我的 CUDA 代码中的线程获取一个随机数生成器。我浏览了所有论坛，是的，这个主题出现了相当多，但我花了几个小时试图解开各种代码，但无济于事。如果有人知道一个简单的方法，可能是设备可以调用的内核返回 0 到 1 之间的随机浮点数，或者我可以转换的整数，我将不胜感激。

再次，我希望在内核中使用随机数，就像 rand() 一样。

提前致谢

解决方案

我不确定我理解为什么你需要什么特别的东西。任何传统的PRNG都应该或多或少地直接移植。线性同余应该可以正常工作。你有一些你想要建立的特殊属性吗？

其他提示

对于任何有兴趣的人，您现在可以通过 cuRAND 来完成。

我认为对这个问题的任何讨论都需要回答Zenna的原始请求，那就是线程级实现。特别是设备功能，可以在内核或线程中调用。对不起，如果我用粗体<！>引用了<！>“;短语，但我真的认为到目前为止的答案并没有完全解决这里所寻求的问题。

cuRAND库是您最好的选择。我很欣赏人们想要重新发明轮子（它让人欣赏并更恰当地使用第三方库）但是高性能的高质量数字生成器非常丰富且经过了良好的测试。我可以推荐的最好的信息是关于不同生成器上的GSL库的文档： http://www.gnu.org/software/gsl/manual/html_node/Random-number-generator-algorithms.html

对于任何严肃的代码，最好使用数学家/计算机科学家一直在寻找系统性弱点的主要算法之一。 <！>“mersenne twister <！>”;是一个周期（重复循环）大约10 ^ 6000（MT19997算法意味着<！>; Mersenne Twister 2 ^ 19997 <！>;），它特别适合Nvidia在线程内使用使用线程id调用相同warp的线程作为种子。请参阅此处的论文： http：/ /developer.download.nvidia.com/compute/cuda/2_2/sdk/website/projects/MersenneTwister/doc/MersenneTwister.pdf 。我实际上正在努力使用这个库实现somehting，如果我让它正常工作，我将发布我的代码。 Nvidia在他们的文档站点上有一些关于当前CUDA工具包的例子。

注意：仅仅是为了记录，我不为Nvidia工作，但我承认他们的文档和CUDA的抽象设计是我迄今为止留下深刻印象的东西。

根据您的应用程序，您应该谨慎使用 LCG，而不考虑流（每个线程一个流）是否会重叠。您可以使用 LCG 实现蛙跳，但随后您需要有足够长的 LCG 周期以确保序列不会重复。

一个蛙跳的例子可以是：

template <typename ValueType>
__device__ void leapfrog(unsigned long &a, unsigned long &c, int leap)
{
    unsigned long an = a;
    for (int i = 1 ; i < leap ; i++)
        an *= a;
    c = c * ((an - 1) / (a - 1));
    a = an;
}

template <typename ValueType>
__device__ ValueType quickrand(unsigned long &seed, const unsigned long a, const unsigned long c)
{
    seed = seed * a;
    return seed;
}

template <typename ValueType>
__global__ void mykernel(
    unsigned long *d_seeds)
{
    // RNG parameters
    unsigned long a = 1664525L;
    unsigned long c = 1013904223L;
    unsigned long ainit = a;
    unsigned long cinit = c;
    unsigned long seed;

    // Generate local seed
    seed = d_seeds[bid];
    leapfrog<ValueType>(ainit, cinit, tid);
    quickrand<ValueType>(seed, ainit, cinit);
    leapfrog<ValueType>(a, c, blockDim.x);

    ...
}

但在大多数情况下，该发电机的周期可能不够。

老实说，我会考虑使用第三方库，例如唠叨. 。SDK 中也有一些批处理生成器，但在本例中这可能不是您想要的。

编辑

由于这刚刚得到投票，我认为值得更新以提及这一点库兰德, 正如该问题的最新答案所提到的，它是可用的，并提供了许多生成器和发行版。这绝对是最简单的起点。

最好的方法是编写自己的设备功能，这是一个

void RNG()
{   
    unsigned int m_w = 150;
    unsigned int m_z = 40;

    for(int i=0; i < 100; i++)
    {
        m_z = 36969 * (m_z & 65535) + (m_z >> 16);
        m_w = 18000 * (m_w & 65535) + (m_w >> 16);

        cout <<(m_z << 16) + m_w << endl;  /* 32-bit result */
    }
}

它会给你100个随机数，结果为32位。

如果你想要一些介于1和1000之间的随机数，你也可以在消费点或生成点采用result%1000：

((m_z << 16) + m_w)%1000

更改m_w和m_z起始值（在示例中为150和40）可让您每次都获得不同的结果。您可以使用threadIdx.x作为其中之一，每次都应该为您提供不同的伪随机序列。

我想补充说它的工作速度比rand（）函数快2倍，效果很好;）

有一个MDGPU包（GPL），它包含了一个用于CUDA的GNU rand48（）函数的实现这里。

我发现它（非常容易，使用谷歌，我认为你试过:-)在NVidia论坛上这里。

我没有为CUDA找到一个好的并行数发生器，但我确实找到了一个基于学术研究的并行随机数发生器： http://sprng.cs.fsu.edu/

你可以尝试 Mersenne Twister for GPU

它基于面向SIMD的Fast Mersenne Twister（SFMT），它是一种非常快速和可靠的随机数发生器。它通过Marsaglias DIEHARD测试随机数生成器。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow