L’indexation sémantique latente (LSI) est-elle un algorithme de classification statistique?

https://stackoverflow.com/questions/1634073

06-07-2019
|

Question

L’indexation sémantique latente (LSI) est-elle un algorithme de classification statistique? Pourquoi ou pourquoi pas?

En gros, j'essaie de comprendre pourquoi la page de Wikipedia relative à la classification statistique ne mentionnez pas LSI. Je me lance dans ce genre de choses et j'essaie de voir en quoi toutes les approches différentes pour classifier quelque chose sont liées les unes aux autres.

La solution

Non, ils ne sont pas tout à fait les mêmes. La classification statistique a pour but de séparer les articles en catégories de la manière la plus claire possible. Par exemple, vous devez décider clairement si l’article X est plus ou moins semblable aux articles du groupe A ou du groupe B.

LSI a pour but d'indiquer dans quelle mesure les éléments sont similaires ou différents et, principalement, de rechercher les éléments présentant un degré de similitude avec un élément spécifié. Bien que cela soit similaire , ce n'est pas tout à fait la même chose.

Autres conseils

LSI / LSA est finalement une technique de réduction de dimensionnalité et est généralement associée à un algorithme du plus proche voisin pour en faire un système de classification. Par conséquent, ce n’est qu’un moyen "d’indexer" les données dans la dimension inférieure en utilisant SVD.

Avez-vous lu des informations sur LSI sur Wikipedia ? Il indique qu'il utilise la factorisation matricielle ( SVD ), qui est parfois utilisé dans la classification.

La principale distinction en matière d’apprentissage automatique réside entre "supervisé" et et " non supervisé " modélisation.

Habituellement, les mots "classification statistique" se référer aux modèles supervisés, mais pas toujours.

Avec les méthodes supervisées, le kit d’entraînement contient une "vérité de terrain". marquez que vous construisez un modèle à prédire. Lorsque vous évaluez le modèle, l'objectif est de prédire la meilleure estimation de (ou la distribution de probabilité) de la véritable étiquette, ce que vous ne pourrez pas obtenir au moment de l'évaluation. Il existe souvent une métrique de performance et il est assez clair que la bonne ou la mauvaise réponse est.

Les méthodes de classification non supervisées tentent de regrouper un grand nombre de points de données qui peuvent sembler varier de manière compliquée en un nombre plus petit de "similaires". catégories. Les données de chaque catégorie doivent être similaires d’une manière «intéressante» ou «profonde». Puisqu'il n'y a pas de "vérité sur le terrain" vous ne pouvez pas évaluer «bon ou mauvais», mais «plus» contre «moins» intéressant ou utile.

De la même manière, vous pouvez placer de nouveaux exemples dans l'un des groupes (classification nette) ou donner une sorte de pondération quantifiant la similarité ou la différence avec le "archétype". du cluster.

Ainsi, à certains égards, les modèles supervisés et non supervisés peuvent produire quelque chose qui est une "prédiction", une prédiction d'étiquette de classe / cluster, mais ils sont intrinsèquement différents.

Souvent, un modèle non supervisé a pour objectif de fournir des entrées plus intelligentes et plus compactes pour un modèle supervisé ultérieur.

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow