Question

J'utilise Compute Prof 3.2 et une GTX 280. Je Geforce ai la capacité Compute 1.3 je crois.

Ce fichier , semble montrer que je devrais être en mesure de voir ces domaines depuis que je suis en utilisant un dispositif de calcul 1.x. Eh bien, je ne les vois pas et le Guide de l'utilisateur pour 3.2 boîte à outils dit que je ne peux pas les voir, mais appelle les gst_uncoalesced et gst_coalesced.

Pour résumer, je suis confus sur la façon dont je comprendre du profileur si je fais non coalescé lit de la mémoire globale. Il ne ressemble pas à des cartes Fermi dire non, mais je ne suis pas inquiet à leur sujet pour l'instant. Si quelqu'un peut élaborer sur la situation, je vous serais reconnaissant.

De plus, on m'a dit de regarder l'ensemble de mes grains à la figure ce genre de choses, de sorte que toute élaboration sur la façon de le faire est apprécié aussi. Je commence tout juste à essayer de comprendre ce genre de choses trop:)

Était-ce utile?

La solution

J'ai eu des problèmes similaires avec la sortie de profilage. Alors que sur un 8600 (capacité de calcul 1.0), il a montré à la fois coalisée et uncoalesced lecture / écriture, il n'a démontré que coalisée sur GTX280. Je suppose que cela est dû à une meilleure coalescent sur la gtx 280 rendant la moins claire (est une mémoire dont tous sauf un mot n'est pas nécessaire uncoalesced?). Cependant, vous pouvez simplement regarder dans le tableau récapitulatif. Vous y trouverez une charge et un efficieny magasin pour chaque noyau. Si tous les accès sont coalescées que l'efficacité doit être 1, sinon le moins d'un (0,5 sens que seulement la moitié des octets chargés sont utilisés).

Bien sûr, car cela ne déterminez vous aider à pas grand-chose où exactement vos accès uncoalesced sont à l'intérieur de votre noyau, la meilleure façon est encore de savoir comment fonctionne coalescents (adresses de chaque halfwarp sont regroupées en 32, 64 et accès 128byte, valeurs non accessibles à l'intérieur cette zone sont transférées de toute façon) et l'analyse de vos accesspatterns est encore le chemin à parcourir à la fin.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top