CUDAの動的割り当て - 手書きのソリューションよりも低い競合?
-
08-10-2019 - |
質問
現在、CUDAはグローバルメモリに動的割り当てを許可します。しかし、私はそれのスケーラビリティへの言及を見つけることができませんでした malloc
機能:たとえば、メモリの塊をpreallocateしてから、グローバル整数を原子的にインクリメントして次のメモリチャックをスレッドに割り当てるよりも優れていますか?この最後の「自家製」ソリューションは機能しますが、スケーラビリティに明らかな問題があるので、私は疑問に思います malloc
どういうわけかそれを世話します。
解決
あなたの「自家製の」ソリューションは現在同じくらい良いかもしれませんが、グローバル整数への同時の呼び出しはそれを遅くするかもしれませんが、マロックは私の選択だろうと思います。
これは、NVIDIAがスケーラビリティの頭痛に対処し、ハードウェアまたはソフトウェアの実装のいずれかで改善を行うことができるためです。
所属していません StackOverflow