Question

Je l'ai passé en revue les performances de plusieurs GPU NVIDIA de et je vois que souvent, les résultats sont présentés en termes de « images par seconde » qui peuvent être traitées. Des expériences sont généralement en cours sur les architectures de réseau classiques tels que Alex Net ou GoogLeNet.

Je me demande si un certain nombre d'images par seconde, par exemple 15000, signifie que les images peuvent être 15000 traitées par itération ou pour apprendre pleinement le réseau avec cette quantité d'images ?. Je suppose que si j'ai 15000 images et que vous voulez calculer à quelle vitesse un train GPU étant donné que le réseau, je dois multiplier par certaines valeurs de ma configuration spécifique (par exemple nombre d'itérations). Dans le cas où ce n'est pas vrai, est-il une configuration par défaut utilisé pour ce tests?

Voici un exemple de référence Deep Learning Inference sur ( miroir )

Était-ce utile?

La solution

Je me demande si un certain nombre d'images par seconde, par exemple 15000, signifie que les images peuvent être 15000 traités par itération ou pour apprendre pleinement le réseau avec cette quantité d'images?.

En général ils précisent quelque part s'ils parlent du temps avant (inférence essai a.k.a. a.k.a.), par exemple de la page que vous avez mentionné dans votre question:

Un autre exemple de https://github.com/soumith/convnet-benchmarks ( miroir ):

Autres conseils

Je me demande si un certain nombre d'images par seconde, par exemple 15000, signifie que les images peuvent être 15000 traitées par itération ou pour apprendre pleinement le réseau avec cette quantité d'images ?. Je suppose que si j'ai 15000 images et que vous voulez calculer à quelle vitesse un train GPU étant donné que le réseau, je dois multiplier par certaines valeurs de ma configuration spécifique (par exemple nombre d'itérations). Dans le cas cela est pas vrai , il une configuration par défaut utilisé pour ce tests?

Le rapport que vous voyez " Deep Learning inference sur P40 processeurs graphiques " utilise un ensemble d'images décrit dans le document: " IMAGEnet à grande échelle reconnaissance visuelle Défi ", l'ensemble de données est disponible à l'adresse: " IMAGEnet à grande échelle visuelle Défi reconnaissance (ILSVRC) "

Voici la figure 7 du document mentionné ci-dessus, et le texte associé:

Un excellent exemple des succès dans l'apprentissage en profondeur peut être illustré par le Défi IMAGEnet $ [14] $ . Ce défi est un concours impliquant plusieurs composants différents. L'un des composants est une tâche de classification d'images où les algorithmes sont donnés une image et ils doivent identifier ce qui est dans l'image, comme le montre la figure. 6. L'ensemble de la formation se compose de 1,2 millions d'images , chacun qui est marqué avec une de 1000 catégories d'objets que l'image contient. Pour la phase d'évaluation, l'algorithme doit identifier avec précision les objets dans un ensemble de test d'images, qu'il n'a pas vu précédemment.

Fig

. 7 montre les performances des meilleurs participants du concours IMAGEnet sur plusieurs années. On voit que la précision des algorithmes avait initialement un taux d'erreur de 25% ou plus. En 2012, un groupe de l'Université de Toronto utilisé graphiques unités de traitement (GPU) pour leur grande capacité de calcul et une approche de réseau de neurones profond, nommé AlexNet, et a baissé le taux d'erreur d'environ 10% $ [3] $ .

Leur réalisation a inspiré une vague d'apprentissage en profondeur algorithmes de style qui ont donné lieu à un flux constant d'améliorations.

Dans le cadre de la tendance à l'apprentissage en profondeur des approches pour le Défi IMAGEnet, il y a eu une augmentation correspondante du nombre de participants à l'aide de processeurs graphiques. A partir de 2012, lorsque seulement 4 participants utilisés GPUs à 2014 quand presque tous les participants (110) les utilisaient. Cela reflète le commutateur presque complet de la vision informatique approches traditionnelles aux approches fondées sur l'apprentissage profond pour la compétition.

En 2015, le IMAGEnet gagner l'entrée, ResNet $ [15] $ , dépassé précision au niveau humain avec une erreur top 5 seconde4 en dessous de 5%. Depuis lors, le taux d'erreur a chuté en dessous de 3% et plus d'attention est maintenant placé sur les composants les plus difficiles de la compétition, telles que la détection et la localisation objet. Ces succès sont clairement un facteur contribuant à la large gamme d'applications auxquelles DNN sont appliquées.

$ [3] $ A. Krizhevsky, I. Sutskever et G. E. Hinton, « IMAGEnet Classification avec Deep convolutifs Neural Networks « , en NIPS 2012.

$ [14] $ O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg et L. Fei-Fei, « IMAGEnet à grande échelle reconnaissance visuelle Défi, » International Journal of Computer Vision (IJCV), vol. 115, no. 3, pp. 211-252, 2015.

$ [15] $ K. Il, X. Zhang, S. Ren, et J. Sun, « Deep résiduel d'apprentissage pour l'image de reconnaissance » dans CVPR 2016.

Chaque année, il y a un défi différent, par exemple ILSVRC 2017 nécessaire ( liste partielle):

Les principaux défis

  1. localisation d'objets
    Les données pour les tâches de classification et de localisation restent inchangées par rapport à 2012 ILSVRC. Les données de validation et de test comprendront 150.000 photographies, collectées de flickr et d'autres moteurs de recherche, la main marquée par la présence ou l'absence de 1000 catégories d'objets. Les 1000 catégories d'objets contiennent les noeuds internes et noeuds de feuilles de IMAGEnet, mais ne se chevauchent pas les uns avec les autres. Un sous-ensemble aléatoire de 50 000 des images avec des étiquettes sera publié sous forme de données de validation inclus dans le kit de développement ainsi que la liste des catégories 1000. Les images restantes seront utilisées pour l'évaluation et seront publiés sans étiquette au moment de l'essai. Les données de formation, le sous-ensemble de IMAGEnet contenant les catégories 1000 et 1,2 millions d'images, seront emballées pour faciliter le téléchargement. Les données de validation et de test pour cette compétition ne sont pas contenues dans les données de formation IMAGEnet.
    ...
    Le vainqueur du challenge de localisation d'objets sera l'équipe qui réalise l'erreur moyenne minimale dans toutes les images de test.

  2. Détection d'objets
    Les données de formation et de validation pour la tâche de détection d'objet restent inchangées par rapport à ILSVRC 2014. Les données d'essai seront partiellement actualisé avec les nouvelles images basées sur la compétition de l'an dernier (ILSVRC 2016). Il y a 200 catégories de niveau de base pour cette tâche qui sont entièrement annotés sur les données de test, à savoir boîtes englobantes pour toutes les catégories de l'image ont été étiquetés. Les catégories ont été soigneusement choisis compte tenu de différents facteurs tels que l'échelle de l'objet, le niveau de clutterness d'image, le nombre moyen d'instance d'objet, et plusieurs autres. Certaines des images de test contiendra aucune des 200 catégories.
    ...
    Le gagnant du défi de détection sera l'équipe qui réalise d'abord une précision sur la plupart des catégories d'objets.

  3. Détection d'objets de la vidéo
    Ceci est similaire dans le style à la tâche de détection d'objet. Nous allons partiellement actualiser les données de validation et de test pour la compétition de cette année. Il y a 30 catégories de niveau de base pour cette tâche, qui est un sous-ensemble des 200 catégories de niveau de base de la tâche de détection d'objet. Les catégories ont été soigneusement choisis compte tenu de différents facteurs tels que le type de mouvement, le niveau de clutterness vidéo, le nombre moyen d'instance d'objet, et plusieurs autres. Toutes les classes sont entièrement étiquetées pour chaque clip.
    ...
    Le gagnant de la détection du défi vidéo sera l'équipe qui réalise une meilleure précision sur la plupart des catégories d'objets.

Voir le lien ci-dessus pour des informations complètes.

En bref: Les résultats de référence ne signifie pas que vous pouvez prendre 15 000 de vos propres images et les classer dans une seconde pour obtenir une note de 15K / sec.

Cela signifie qu'il y avait un concours où chaque participant a reçu un ensemble de formation de (récemment) images 1.2M et question composé de 150.000 images, le gagnant identifie correctement les images dans la question la plus rapide .

Vous devez vous attendre que si vous utilisez le même matériel et un ensemble arbitraire d'images, de complexité similaire, que vous obtiendrez un taux de classement de environ mais beaucoup la algorithme particulier est évalué à. Théoriquement, en répétant le test en utilisant le même matériel et les images produira un résultat très proche de ce qui a été obtenu dans le concours.

La vitesse à laquelle les « 15.000 images » mentionnées dans votre question peuvent être classées dépend de leur complexité par rapport à l'ensemble de test. Certains des gagnants du concours fournissent des informations sur leurs méthodes et certains concurrents cacher des informations confidentielles, vous pouvez choisir une méthode ouverte et la mettre en œuvre sur votre matériel -. Vous probablement voulez choisir la méthode la plus rapide disponible au public

Licencié sous: CC-BY-SA avec attribution
scroll top