Che cosa significa immagini al secondo mezzo, quando il benchmarking Deep Learning GPU?

https://datascience.stackexchange.com/questions/18907

22-10-2019
|

Domanda

mi è stato rivedendo le prestazioni di diversi NVIDIA GPU e vedo che in genere i risultati sono presentati in termini di "immagini al secondo" che possono essere elaborati. Gli esperimenti sono tipicamente essendo eseguite su architetture di rete classici come Alex Net o GoogLeNet.

Sto chiedendo se un certo numero di immagini per secondo, dire 15000, 15000 significa che le immagini possano essere elaborati dalla iterazione o completamente apprendimento della rete con quella quantità di immagini ?. Suppongo che se ho 15.000 immagini e voglio calcolare la velocità sarà un dato treno GPU quella rete, avrei dovuto moltiplicare per certi valori della mia configurazione specifica (ad esempio numero di iterazioni). Nel caso in cui questo non è vero, c'è una configurazione di default utilizzata per questo test?

Ecco un esempio di riferimento Deep Learning Inference sul P40 GPU ( specchio )

Soluzione

Mi chiedo se un certo numero di immagini al secondo, dicono 15000, 15000 significa che le immagini possono essere trattati da iterazione o per l'apprendimento completamente la rete con quella quantità di immagini?.

In genere si specificano da qualche parte se si parla del (prova anche noto come inferenza pseudonimo) in avanti il ??tempo, per esempio dalla pagina che lei ha citato nella sua domanda:

Un altro esempio da https://github.com/soumith/convnet-benchmarks ( specchio ):

Altri suggerimenti

Sto chiedendo se un certo numero di immagini per secondo, dire 15000, 15000 significa che le immagini possano essere elaborati dalla iterazione o completamente apprendimento della rete con quella quantità di immagini ?. Suppongo che se ho 15.000 immagini e voglio calcolare la velocità sarà un dato treno GPU quella rete, avrei dovuto moltiplicare per certi valori della mia configurazione specifica (ad esempio numero di iterazioni). Nel caso in cui questo non è vero , è C'è una configurazione di default viene utilizzato per questo test?

Il rapporto si fa riferimento a " deep Learning Inference sul P40 GPU " utilizza una serie di immagini descritto nel documento: " IMAGEnet Large Scale visiva riconoscimento Sfida ", l'insieme di dati è disponibile all'indirizzo: " IMAGEnet Large Scale visiva riconoscimento Challenge (ILSVRC) "

Ecco Figura 7 dalla carta di cui sopra, e il testo associato:

Un eccellente esempio dei successi nell'apprendimento profonda può essere illustrato con l'IMAGEnet sfida $ [14] $ . Questa sfida è un concorso che coinvolge diverse componenti diversi. Uno dei componenti è un compito classificazione delle immagini in cui sono riportati gli algoritmi un'immagine e devono identificare quale è l'immagine, come mostrato in Fig. 6. Il training set costituito da 1,2 milioni di immagini , ciascuno di che è etichettato con una 1000 categorie di oggetti che l'immagine contiene. Per la fase di valutazione, l'algoritmo deve identificare con precisione oggetti in un insieme di test di immagini, che non ha visto in precedenza.

Fig. 7 mostra le prestazioni dei migliori partecipanti al concorso IMAGEnet nel corso di un certo numero di anni. Si vede che la precisione degli algoritmi inizialmente ha avuto un tasso di errore del 25% o più. Nel 2012, un gruppo presso l'Università di Toronto unità di elaborazione grafica (GPU) per la loro elevata capacità di elaborazione e di un approccio di rete neurale in profondità, di nome AlexNet utilizzato, e lasciò cadere il tasso di errore di circa il 10% $ [3] $ .

La loro realizzazione ha ispirato un'effusione di apprendimento profondo algoritmi di stile che hanno portato a un flusso costante di miglioramenti.

In concomitanza con la tendenza all'apprendimento profondo si avvicina per l'IMAGEnet sfida, c'è stato un corrispondente aumento del numero di partecipanti che utilizzano le GPU. A partire dal 2012, quando a soli 4 partecipanti usati GPU al 2014, quando quasi tutti i partecipanti (110) sono stati li utilizzano. Ciò riflette l'interruttore quasi completa dalla visione tradizionale del computer approcci profonde approcci di apprendimento basati per il concorso.

Nel 2015, l'IMAGEnet vincente ingresso, RESNET $ [15] $ , superato precisione a livello umano con un top-5 errore rate4 di sotto del 5%. Da allora, il tasso di errore è scesa sotto 3% e maggiore attenzione viene ora collocato su più impegnativi componenti della concorrenza, quali rilevazione dell'oggetto e localizzazione. Questi successi sono chiaramente un fattore che contribuisce alla vasta gamma di applicazioni a cui vengono applicate DNNS.

$ [3] $ A. Krizhevsky, I. Sutskever, e G. E. Hinton, “IMAGEnet Classificazione con profonde convoluzionali reti neurali,”in NIPS 2012.

$ [14] $ O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. KhOsla, M. Bernstein, A. C. Berg, e L. Fei-Fei, “IMAGEnet Large Scale visiva Riconoscimento Challenge”, International Journal of Computer Vision (IJCV), vol. 115, n. 3, pp. 211-252, 2015.

$ [15] $ K. Lui, X. Zhang, S. Ren, e J. Sun, “Deep residua Learning per Image Recognition “, in CVPR 2016.

Ogni anno c'è una sfida diversa, ad esempio ILSVRC 2017 richiesto ( elenco parziale):

sfide principali per il

localizzazione oggetto
I dati per i compiti di classificazione e localizzazione rimarranno invariati da ILSVRC 2012. I dati di validazione e di test sarà composto da 150.000 fotografie, raccolte da Flickr e altri motori di ricerca, etichettato con la presenza o meno di 1000 categorie di oggetti mano. Le categorie di oggetti 1000 contengono entrambi i nodi interni e nodi foglia di IMAGEnet, ma non si sovrappongono tra loro. Un sottoinsieme casuale di 50.000 delle immagini con le etichette sarà rilasciato come dati di convalida inclusi nel kit di sviluppo insieme a un elenco dei 1000 categorie. Le immagini rimanenti saranno utilizzati per la valutazione e saranno rilasciati senza etichette al momento del test. I dati di allenamento, il sottoinsieme di IMAGEnet contenente le 1000 categorie e 1,2 milioni di immagini, saranno confezionati per il download facile. I dati di convalida e di prova per questa competizione non sono contenuti nei dati di addestramento IMAGEnet.
...
Il vincitore della sfida localizzazione di oggetti sarà la squadra che realizza l'errore medio minimo in tutte le immagini di prova.

il rilevamento di oggetti
I dati di allenamento e di convalida per l'attività di rilevamento oggetti rimarranno invariati da ILSVRC 2014. I dati di test saranno parzialmente aggiornati con nuove immagini basate su concorrenza dello scorso anno (ILSVRC 2016). Ci sono 200 categorie a livello di base per questo compito, che sono completamente annotati sui dati di test, vale a dire di delimitazione scatole per tutte le categorie presenti nell'immagine sono stati etichettati. Le categorie sono state accuratamente scelti tenendo conto di fattori diversi, quali la portata oggetto, il livello di immagine clutterness, numero medio di istanza di oggetto, e molti altri. Alcune delle immagini di prova conterrà nessuna delle 200 categorie.
...
Il vincitore della sfida di rilevamento sarà la squadra che raggiunge prima la precisione luogo il maggior numero di categorie di oggetti.

il rilevamento di oggetti dal video
Questo è simile nello stile al compito il rilevamento di oggetti. Ci sarà parzialmente aggiornare i dati di validazione e di test per il concorso di quest'anno. Ci sono 30 categorie di livello base per questo compito, che è un sottoinsieme delle 200 categorie di livello base del compito il rilevamento di oggetti. Le categorie sono state accuratamente scelti in diversi fattori quali il tipo di movimento, livello video clutterness, numero medio di istanza di oggetto, e molti altri. Tutte le classi sono completamente etichettate per ogni clip.
...
Il vincitore della rilevazione da sfida il video sarà la squadra che raggiunge una maggiore precisione sulla maggior parte categorie di oggetti.

Vedere il link qui sopra per informazioni complete.

In breve: I risultati dei benchmark non significano che si può prendere 15.000 di il proprio immagini e classificarle in un secondo per ottenere un rating di 15K / sec.

Ciò significa che ci fosse un concorso in cui ogni partecipante è stato dato un training set di (di recente) immagini 1.2M e un questione costituito da 150.000 immagini, il vincitore identifica correttamente le immagini nelle domande più veloce .

Si deve aspettare che se si utilizza lo stesso hardware e un insieme arbitrario di immagini, di complessità simile, che si ottiene un tasso di classificazione delle di circa tuttavia molti la particolare algoritmo è valutato a. Teoricoly, ripetendo la prova utilizzando lo stesso hardware e immagini produrrà un risultato molto vicino a quello che è stato ottenuto al concorso.

La velocità con cui le "15.000 immagini" menzionati nella domanda potrebbero essere classificati dipende dalla loro complessità, rispetto al set di test. Alcuni dei vincitori del concorso fornire informazioni complete sui loro metodi e alcuni concorrenti nascondere informazioni proprietarie, è possibile scegliere un metodo aperto e implementare sul proprio hardware -. Presumibilmente si vorrà scegliere il metodo più veloce a disposizione del pubblico

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a datascience.stackexchange