Domanda

Sto usando Compute Prof 3.2 e una Geforce GTX 280. Non ho capacità di elaborazione 1.3 allora credo.

Questo file , sembra dimostrare che dovrei essere in grado di vedere questi campi dal momento che sto usando un dispositivo 1.x di calcolo. Beh, io non li vedo e la Guida dell'utente per 3.2 toolkit dice che non posso vederli, ma li chiama gst_uncoalesced e gst_coalesced.

In sintesi, Sono confuso su come avrei dovuto capire dal profiler se sto facendo non si fusero legge dalla memoria globale. Non sembra come le carte di Fermi diranno sia, ma io non sono preoccupato per loro, per ora. Se qualcuno può approfondire la situazione lo apprezzerei.

Inoltre, mi è stato detto di guardare il montaggio dei miei kernel per capire questa roba, in modo che qualsiasi elaborazione su come fare questo è apprezzato anche. Sto solo cominciando a cercare di capire quella roba troppo:)

È stato utile?

Soluzione

ho avuto problemi simili con l'uscita di profiling. Durante una 8600 (capacità di elaborazione 1.0) ha mostrato sia coalizzato e uncoalesced letture / scritture, ha mostrato fusero solo su GTX280. Ho pensato che fosse dovuto al meglio coalescenza sulla GTX 280 fare il taglio meno chiaro (è una lettura della memoria per il quale tutti, ma una sola parola non è necessario uncoalesced?). Tuttavia si può solo guardare nella tabella di riepilogo. Vi si trovano un carico e un efficieny serbo per ogni kernel. Se tutti gli accessi sono coalesced che l'efficienza dovrebbe essere 1, altrimenti è meno di uno (0,5 significato che solo la metà dei byte caricati sono utilizzati).

Naturalmente dal momento che non aiuta molto di capire esattamente dove i tuoi accessi uncoalesced sono all'interno del vostro kernel, il modo migliore è ancora sapere come funziona la coalescenza (indirizzi di ciascun halfwarp sono raccolti in 32, 64 e 128byte accessi, I valori non si accede all'interno di quella zona vengono trasferiti comunque) e analizzare i accesspatterns è ancora la strada da percorrere, alla fine.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top