Динамическое распределение в CUDA - более низкое соотношение, чем рукописное решение?

https://stackoverflow.com/questions/4413096

08-10-2019
|

Вопрос

Теперь CUDA позволяет динамически распределение в глобальной памяти. Тем не менее, я не мог найти ссылку на масштабируемость этого malloc Функция: это каково лучше, чем, например, отразить кусок памяти, а затем просто назначить следующую память патрона в потоке, атомным образом увеличивая глобальное целое число? Этот последний «домашнее» решение работает, но есть очевидная проблема с масштабируемостью, поэтому мне интересно, malloc заботится об этом как-то.

Решение

Я думаю, что в то время как ваше «домашнее» решение может быть так же хорошим в настоящее время, хотя одновременные звонки в глобальное целое число могут замедлить его, Malloc будет моим выбором.

Это связано с тем, что NVIDIA позволяет NVIDIA справиться с головной болью масштабируемости и создавать улучшения, либо в аппаратном или программной реализации, которую вы можете воспользоваться просто путем повторного составления кода на более позднюю дату.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow