Question

Je me suis amusé avec différents algorithmes de regroupement de données afin de rechercher des regroupements entre des points de données aléatoires représentés par des nœuds. Je continue de lire que le regroupement de données est utilisé pour la reconnaissance d’image. Je ne parviens pas à établir la connexion. En quoi le regroupement de données facilite-t-il la reconnaissance d’une image ou la reconnaissance faciale? quelqu'un peut-il expliquer cela?

Était-ce utile?

La solution

Il n’est pas surprenant que le clustering soit utilisé pour la reconnaissance des formes en général, et en particulier pour la reconnaissance d’images: le clustering est un processus réducteur , et les images de cette époque mégapixel doivent s’effacer ... Un processus qui produit des catégories et qui est bien sûr utile.

Cependant, il existe de nombreuses approches pour utiliser le clustering en tant que technique de reconnaissance d’image . Une des raisons de cette diversité est que le clustering peut être appliqué à différents niveaux, pour différents objectifs: du niveau de pixel de base au niveau de la fonctionnalité (fonction: ligne, figure géométrique, etc.), pour la classification ou à d’autres fins.

À un niveau très élevé, le regroupement en cluster est un outil statistique , il permet de découvrir l'importance relative des différentes dimensions dans la définition de l'appartenance d'un élément donné à une catégorie particulière.

Un [nombre d'utilisations] d'un tel outil est associé à un apprentissage supervisé , dans lequel un des éléments (par exemple des images) sont introduits dans la logique basée sur les groupes, avec une étiquette associée à un élément particulier ("ceci est une pomme", "ceci est une autre pomme", "c'est un citron" ... ), la logique de regroupement détermine ensuite dans quelle mesure chaque dimension de l’intrant est importante pour aider chaque groupe d’articles (pommes, citrons, etc.) à s’inscrire dans un groupe distinct (par exemple, la couleur peut avoir une importance relativement réduite, mais la forme ou la présence de points, ou de ce qui peut avoir beaucoup d'importance). Après cette phase de formation, de nouvelles images peuvent être introduites dans la logique et en voyant à quelle distance d'un groupe particulier cette image tombe, elle est "reconnue". (comme une banane!).

En ce qui concerne le traitement des images, il ne faut pas oublier que tout ce qui est "alimenté" La logique de regroupement n’est pas nécessairement (en fait, rarement) les pixels bruts, mais divers "objets". caractériser divers " éléments " des données d'origine (essentiellement une collection de vecteurs de dimensions relativement élevées, similaires à certains que l'on peut avoir rencontrés dans d'autres exemples de regroupement de données), et produits par les étapes précédentes du processus. Par exemple, un élément important de la reconnaissance faciale est probablement la distance exacte entre le centre des yeux. Dans les étapes précédentes, l’image est traitée de manière à déterminer l’emplacement des yeux (en s’appuyant éventuellement sur une autre logique de classification). Ensuite, la distance entre les yeux, ainsi que de nombreux autres éléments, alimente la logique de classification finale.

La description qui précède n’est qu’un exemple de l’utilisation de la mise en cluster pour la reconnaissance d’image. En effet, diverses formes de réseaux de neurones ont été utilisées avec succès dans ce domaine, et on peut affirmer que, dans un sens, ces réseaux de neurones regroupent des informations. L'une des raisons du succès des réseaux de neurones réside peut-être dans leur capacité à être plus respectueux de la dimension localité que l'on trouve dans l'entrée d'origine, ainsi que dans leur capacité à travailler de manière hiérarchisée. .

Une bonne conclusion à cette rédaction consisterait en une courte liste de ressources en ligne, mais je suis pressé par le temps qui reste ... "à suivre" ; -)

Modification le lendemain : (tentative infructueuse de fournir une bibliographie en ligne d'introduction sur le sujet)

Ma recherche de littérature sur le thème des grappes appliquées à la vision artificielle et au traitement des images a révélé deux ... grappes distinctes ;-)

  • Des livres tels que Algorithmes pour le traitement des images et la vision par ordinateur J Parkey pub Wiley, ou Machine Vision: théorie, algorithmes, aspects pratiques M Seul et. Al Cambridge UP. Ces ouvrages couvrent généralement toutes les techniques importantes associées à la réduction du bruit, à la détection des contours, à la conversion des couleurs ou de l’intensité, ainsi qu’à de nombreux autres éléments de la chaîne de traitement des images, dont la plupart ne nécessitent pas de regroupement ni même de méthodes statistiques. deux, voire des mentions mineures, à la mise en cluster, appliquée à la reconnaissance de formes ou à d'autres tâches.
  • Articles savants et manuels de conférence traitant spécifiquement des techniques de regroupement appliquées à la vision artificielle, mais de la manière la plus étroite et la plus profonde (ex: Variations sur l’algorithme de Fukunaga et Narendra, pour des applications de reconnaissance des caractères ou Méthodes rapides pour la sélection des candidats du voisin le plus proche, quel que soit le contexte.)

En bref, je me sens mal outillé pour faire des suggestions de livres ou d’articles.

Vous pouvez trouver informatif de parcourir les titres dans Google Livres, en les saisissant avec "Vision artificielle". ou "Reconnaissance d'image" ou certains ou les titres mentionnés ci-dessus. Avec la fonction de prévisualisation ainsi que le nuage de tags (une autre application de mise en cluster) se trouvent dans la rubrique "à propos de ce livre". lien, on peut avoir une bonne idée du contenu des différents livres et peut-être décider d’en acheter quelques-uns. Malheureusement, le lectorat réduit et les applications potentiellement lucratives sur le terrain rendent ces livres relativement coûteux. À l'autre extrémité du spectre, vous pouvez télécharger, parfois gratuitement, des documents de recherche traitant de sujets avancés dans le domaine. Ceux-ci s'afficheront également sur Google (Web) ou sur des référentiels spécialisés tels que CiteSeer .

Bonne chance dans votre exploration de ce domaine!

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top