conjunto de entrenamiento - proporción de frases pos / neg / neutro

https://stackoverflow.com/questions/2058790

20-09-2019
|

Pregunta

Soy mensajes de twitter etiquetado mano como positivos, negativos y neutros. Estoy tratar de apreciar es que hay algo de lógica se puede utilizar para identificar el conjunto de entrenamiento qué proporción de mensaje debe ser positivo / negativo y neutro?

Así, por ejemplo, si estoy entrenando un clasificador de Bayes ingenuo con 1000 mensajes de Twitter debe la proporción de pos: neg: neutral sea 33%: 33%: 33% o debe ser 25%: 25%: 50%

Como es lógico en mi cabeza parece que me entreno (es decir, dar más muestras de neutro) que el sistema sería mejor en la identificación frases neutras entonces si son positivos o negativos - ¿es cierto? o me estoy perdiendo algo de teoría aquí?

Gracias Rahul

Solución

El problema que usted se refiere se conoce como el problema del desequilibrio. Muchos algoritmos de aprendizaje automático mal rendimiento cuando se enfrenta con datos de entrenamiento desequilibrada, es decir, cuando las instancias de una clase en gran medida superan en número a los de la otra clase. Leer este artículo para obtener una buena visión general del problema y cómo abordarlo. Para técnicas como Bayes ingenuo o árboles de decisión, siempre es una buena idea para equilibrar sus datos de alguna manera, por ejemplo, por sobremuestreo aleatoria (que se explica en el documento de referencias). No estoy de acuerdo con la sugerencia de MJV tener un conjunto de entrenamiento que coincida con las proporciones en el mundo real. Esto puede ser apropiado en algunos casos, pero estoy bastante seguro de que no está en su entorno. Para un problema de clasificación como el que usted describe, más los tamaños de los conjuntos de clases diferentes, la mayoría de los algoritmos más ML tendrán problemas discriminan las clases correctamente. Sin embargo, siempre se puede utilizar la información acerca de qué clase es la más grande, en realidad, al tomarlo como punto de retorno de forma que cuando la confianza del clasificador para un caso particular es baja o este caso no pudo ser clasificado en absoluto, que le asigna la la clase más grande.

Una observación más: la búsqueda de la positividad / negatividad / neutralidad en los mensajes de Twitter me parece ser una cuestión de grado. Como tal, puede ser viewes como una regresión en lugar de un problema de clasificación, es decir, en lugar de un esquema de tres clases, que tal vez puede que desee calcular una puntuación que le indica que ¿Cómo positivo / negativo es el mensaje.

Otros consejos

Hay muchos otros factores ... pero importante (en la determinación de una relación adecuada y el volumen de datos de entrenamiento) es la distribución esperada de cada categoría de mensaje (positiva, neutra o negativa) en el mundo real. Efectivamente, una buena base para el conjunto de entrenamiento (y el conjunto de control) es

[cualitativamente] lo más representativa posible de toda la "población"
[cuantitativamente] suficiente que las mediciones hechas a partir de tales conjuntos es estadísticamente significativa grande.

El efecto de la abundancia [relativa] de una determinada categoría de mensajes en el conjunto de entrenamiento es difícil determinar; es en cualquier caso un factor menor -o más bien uno que es altamente sensible a- otros factores. Las mejoras en la precisión del clasificador, en su conjunto, o con respecto a una categoría en particular, está típicamente ligados más a la implementación específica del clasificador (por ejemplo. Es bayesiano, ¿cuáles son las fichas, son el ruido símbolo eliminado, es la proximidad un factor, estamos utilizando bi-gramas, etc ...) que al puramente cuantitativa características del conjunto de entrenamiento.

Aunque lo anterior es por lo general hechos pero moderadamente útil para la selección del tamaño y la composición del conjunto de entrenamiento, hay formas de determinar, post facto , cuando un tamaño y composición de una formación adecuada los datos se han suministrado.
Una forma de lograr esto es la introducción de un conjunto de control, es decir, una etiqueta manualmente, pero que no forma parte del conjunto de entrenamiento y para medir de diferentes pruebas con distintos subconjuntos del conjunto de entrenamiento, el recuerdo y la precisión obtenida para cada categoría (o algunas mediciones de precisión similares), de este la clasificación del conjunto de control. Cuando estas medidas no mejoran o degradan, más allá de lo que es estadísticamente representativa, el tamaño y la composición de la formación [sub] conjunto es probablemente el más adecuado (a menos que sea una sobre-Conjunto Accesorios :-(, pero esa es otra cuestión completamente diferente. ..)

Este enfoque, implica que uno utiliza un conjunto de entrenamiento que podría ser de 3 a 5 veces el tamaño del subconjunto de entrenamiento con eficacia es necesario, para que se pueda construir, aleatoriamente (dentro de cada categoría), muchos subconjuntos diferentes para las distintas pruebas.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow