计算教授的字段不连贯和一致的GST / GLD？（CUDA / OpenCL的）

https://stackoverflow.com/questions/3856460

27-09-2019
|

题

我使用计算教授3.2和GeForce GTX的280我有计算能力1.3那么相信

此文件，似乎表明我应该能够看到这些字段，因为我使用的是1.x的计算设备。嗯，我不认为他们会和用户指南3.2工具包说，我看不到他们，但称他们gst_uncoalesced和gst_coalesced。

要总结，我很困惑，我怎么应该从探查弄清楚，如果我做了非合并从全局内存读取。它看起来并不像费米显卡会说下去，但我并不担心他们现在。如果任何人都可以对局势阐述我将不胜感激。

另外，我被告知要看看我的内核算出这个东西出来的组装，所以对如何做到这一点的任何陈述表示赞赏了。我刚开始尝试和数字的东西出来得：）

解决方案

我与仿形输出类似的问题。而在8600（计算能力1.0）它显示出两个聚结和未聚结的读/写，它仅表现聚结上GTX280。我认为，这是由于对GTX 280的更佳结合使切割不太清楚（是存储器读不需要未聚为所有，但一个字？）。但是你可以看看汇总表。在那里，你找到一个负载和存储高效化每个内核。如果所有的访问被合并该效率应该为1，否则其小于一个（即只有一半的装载字节的使用0.5的含义）。

当然，因为它不能帮助你多少搞清楚究竟在那里你未聚访问是你的内核中，最好的办法还是知道如何每个halfwarp的凝聚作品（地址收集到32，64和128字节的访问，该区域内不访问的值被反正转印）和分析您accesspatterns仍处于端去的方式。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow

计算教授的字段不连贯和一致的GST / GLD？ （CUDA / OpenCL的）

计算教授的字段不连贯和一致的GST / GLD？（CUDA / OpenCL的）