質問

現在、CUDAはグローバルメモリに動的割り当てを許可します。しかし、私はそれのスケーラビリティへの言及を見つけることができませんでした malloc 機能:たとえば、メモリの塊をpreallocateしてから、グローバル整数を原子的にインクリメントして次のメモリチャックをスレッドに割り当てるよりも優れていますか?この最後の「自家製」ソリューションは機能しますが、スケーラビリティに明らかな問題があるので、私は疑問に思います malloc どういうわけかそれを世話します。

役に立ちましたか?

解決

あなたの「自家製の」ソリューションは現在同じくらい良いかもしれませんが、グローバル整数への同時の呼び出しはそれを遅くするかもしれませんが、マロックは私の選択だろうと思います。

これは、NVIDIAがスケーラビリティの頭痛に対処し、ハードウェアまたはソフトウェアの実装のいずれかで改善を行うことができるためです。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top