我使用计算教授3.2和GeForce GTX的280我有计算能力1.3那么相信

此文件 ,似乎表明我应该能够看到这些字段,因为我使用的是1.x的计算设备。嗯,我不认为他们会和用户指南3.2工具包说,我看不到他们,但称他们gst_uncoalescedgst_coalesced

要总结,我很困惑,我怎么应该从探查弄清楚,如果我做了非合并从全局内存读取。它看起来并不像费米显卡会说下去,但我并不担心他们现在。如果任何人都可以对局势阐述我将不胜感激。

另外,我被告知要看看我的内核算出这个东西出来的组装,所以对如何做到这一点的任何陈述表示赞赏了。我刚开始尝试和数字的东西出来得:)

有帮助吗?

解决方案

我与仿形输出类似的问题。而在8600(计算能力1.0)它显示出两个聚结和未聚结的读/写,它仅表现聚结上GTX280。我认为,这是由于对GTX 280的更佳结合使切割不太清楚(是存储器读不需要未聚为所有,但一个字?)。但是你可以看看汇总表。在那里,你找到一个负载和存储高效化每个内核。如果所有的访问被合并该效率应该为1,否则其小于一个(即只有一半的装载字节的使用0.5的含义)。

当然,因为它不能帮助你多少搞清楚究竟在那里你未聚访问是你的内核中,最好的办法还是知道如何每个halfwarp的凝聚作品(地址收集到32,64和128字节的访问,该区域内不访问的值被反正转印)和分析您accesspatterns仍处于端去的方式。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top