Динамическое распределение в CUDA - более низкое соотношение, чем рукописное решение?
-
08-10-2019 - |
Вопрос
Теперь CUDA позволяет динамически распределение в глобальной памяти. Тем не менее, я не мог найти ссылку на масштабируемость этого malloc
Функция: это каково лучше, чем, например, отразить кусок памяти, а затем просто назначить следующую память патрона в потоке, атомным образом увеличивая глобальное целое число? Этот последний «домашнее» решение работает, но есть очевидная проблема с масштабируемостью, поэтому мне интересно, malloc
заботится об этом как-то.
Решение
Я думаю, что в то время как ваше «домашнее» решение может быть так же хорошим в настоящее время, хотя одновременные звонки в глобальное целое число могут замедлить его, Malloc будет моим выбором.
Это связано с тем, что NVIDIA позволяет NVIDIA справиться с головной болью масштабируемости и создавать улучшения, либо в аппаратном или программной реализации, которую вы можете воспользоваться просто путем повторного составления кода на более позднюю дату.