Cómo incluir palabras como característica numérica en la clasificación

https://stackoverflow.com/questions/4207057

25-09-2019
|

Pregunta

¿Cuál es el mejor método para utilizar el propio palabras como las características de cualquier algoritmo de aprendizaje automático?

El problema que tengo a la palabra extracto característica relacionada de un párrafo en particular. ¿Debo usar el índice en el diccionario como la característica numérica? Si es así, ¿cómo voy a normalizar estos?

En general, ¿Cómo son las palabras en sí como rasgos de la PNL?

Solución

Hay varias técnicas convencionales mediante el cual palabras se asignan a Características (columnas en una matriz de datos 2D en el que las filas son los vectores de datos individuales) para la entrada a la máquina modelos de aprendizaje clasificación :.

a Boolean campo que codifica la presencia o ausencia de esa palabra en un documento dado;
a histograma de frecuencias de un que ocurre conjunto predeterminado de palabras, a menudo el X más comúnmente palabras de en medio de todos los documentos que contienen los datos de entrenamiento (más sobre esto en el último párrafo de esta respuesta);
yuxtaposición de dos o más palabras (por ejemplo, 'alternativo' y 'Estilo de vida' en orden consecutivo tener un significado relacionado no sea palabra componente); esta yuxtaposición o bien puede ser capturada en el modelo de datos en sí, por ejemplo, una característica booleano que representa la presencia o ausencia de dos palabras en particular directamente adyacentes uno a otro en un documento, o esta relación puede ser explotado en la técnica ML, como un ingenuo clasificador bayesiano haría en este caso texto subrayado ;
palabras como primas datos para extraer características latentes , por ejemplo, LSA o análisis semántico latente (también llamado a veces LSI para Semántica latente de indexación). LSA es una técnica basada en la descomposición de la matriz que se deriva variables latentes del texto no evidente a partir de las palabras del texto mismo.

Un conjunto de datos de referencia común en el aprendizaje de la máquina se compone de frecuencias de 50 o menos de las palabras más comunes, también conocido como "palabras vacías" (por ejemplo, a , un , de , y , la , no , si ) para las obras publicadas de Shakespeare, Londres, Austen, y Milton. A multi-capa básica perceptron con una sola capa oculta puede separar este conjunto de datos con 100% de precisión. Este conjunto de datos y las variaciones sobre el mismo están ampliamente disponibles en los repositorios de datos ML y trabajos académicos la presentación de la clasificación resultados son igualmente común.

Otros consejos

enfoque estándar es la representación "bolsa-de-palabras" cuando usted tiene una característica por palabra, dando a "1" si la palabra aparece en el documento y "0" si no se produce.

Esto le da un montón de características, pero si usted tiene un aprendiz simple como Naive Bayes, que todavía está OK.

"Índice en el diccionario" es una característica inútil, yo no lo uso.

TF-IDF es una forma bastante estándar de convertir las palabras en características numéricas.

Es necesario recordar a utilizar un algoritmo de aprendizaje que apoya featuers numéricos, como SVM . Naive Bayes no soporta funciones numéricas.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow