¿Es la indexación semántica latente (LSI) un algoritmo de clasificación estadística?

https://stackoverflow.com/questions/1634073

06-07-2019
|

Pregunta

¿Es la indexación semántica latente (LSI) un algoritmo de clasificación estadística? ¿Por qué o por qué no?

Básicamente, estoy tratando de descubrir por qué la página de Wikipedia para la clasificación estadística sin mencionar LSI. Me estoy metiendo en estas cosas y estoy tratando de ver cómo todos los diferentes enfoques para clasificar algo se relacionan entre sí.

Solución

No, no son lo mismo. La clasificación estadística está destinada a separar los elementos en categorías de la manera más limpia posible, para tomar una decisión clara sobre si el elemento X se parece más a los elementos del grupo A o del grupo B, por ejemplo.

LSI está destinado a mostrar el grado en que los elementos son similares o diferentes y, principalmente, encontrar elementos que muestren un grado de similitud con un elemento específico. Si bien esto es similar , no es exactamente lo mismo.

Otros consejos

LSI / LSA es finalmente una técnica para reducción de dimensionalidad , y generalmente se combina con un algoritmo vecino más cercano para convertirlo en un sistema de clasificación. Por lo tanto, en sí mismo, es solo una forma de `` indexar '' los datos en una dimensión inferior usando SVD.

¿Has leído sobre LSI en Wikipedia ? Dice que utiliza la factorización matricial ( SVD ), que a su vez a veces se usa en la clasificación.

La distinción principal en el aprendizaje automático es entre "supervisado" y "sin supervisión" modelado.

Usualmente las palabras " clasificación estadística " consulte los modelos supervisados, pero no siempre.

Con los métodos supervisados, el conjunto de entrenamiento contiene una "verdad básica". etiqueta que construyes un modelo para predecir. Cuando evalúa el modelo, el objetivo es predecir la mejor estimación (o distribución de probabilidad) de la etiqueta verdadera, que no tendrá en el momento de la evaluación. A menudo hay una métrica de rendimiento y está bastante claro cuál es la respuesta correcta frente a la incorrecta.

Los métodos de clasificación no supervisados ??intentan agrupar una gran cantidad de puntos de datos que pueden parecer que varían de manera complicada en una cantidad menor de "similares". categorías. Los datos en cada categoría deberían ser similares en algún tipo de forma "interesante" o "profunda". Como no hay "verdad fundamental" no puede evaluar 'correcto o incorrecto', pero 'más' vs 'menos' interesante o útil.

Del mismo modo, en el tiempo de evaluación, puede colocar nuevos ejemplos en uno de los grupos (clasificación nítida) o dar algún tipo de ponderación que cuantifique qué tan similar o diferente se parece al "arquetipo". del racimo.

Entonces, de alguna manera, los modelos supervisados ??y no supervisados ??pueden generar algo que es una "predicción", predicción de la etiqueta de clase / grupo, pero son intrínsecamente diferentes.

A menudo, el objetivo de un modelo sin supervisión es proporcionar entradas más inteligentes y poderosamente compactas para un modelo supervisado posterior.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow