Categorización de texto utilizando Naive Bayes

https://stackoverflow.com/questions/8319677

25-10-2019
|

Pregunta

Yo estoy haciendo la categorización de texto de la máquina problema de aprendizaje utilizando Naive Bayes.Tengo cada palabra como una característica.He sido capaz de ponerlo en marcha y estoy recibiendo una buena precisión.

Es posible para mí hacer uso de tuplas de palabras como características?

Por ejemplo, si hay dos clases, la Política y los deportes.La palabra gobierno podría aparecer en dos de ellos.Sin embargo, en la política, puedo tener una tupla (gobierno, la democracia), mientras que en la clase de deportes que puede tener una tupla (el gobierno, el deportista).Por lo tanto, si un nuevo texto del artículo viene en lo que es la política, la probabilidad de que la tupla (gobierno, la democracia) tiene más probabilidad de que la tupla (el gobierno, el deportista).

Yo estoy pidiendo esto es porque al hacer esto estoy violando la independencia de la asunción de la Naive Bayes problema, porque yo estoy considerando solo las palabras como las características demasiado.

También, estoy pensando en añadir los pesos de la cuenta.Por ejemplo, una 3-tupla característica tendrá menos peso que una 4-tupla característica.

Teóricamente, son estos dos enfoques de la no modificación de los supuestos de independencia en el clasificador Naive Bayes?Además, aún no he empezado con el enfoque que he mencionado todavía, pero mejorará la exactitud?Creo que la exactitud no podría mejorar, pero la cantidad de datos de entrenamiento necesarios para obtener la misma precisión que sería menos.

Solución

Incluso sin agregar bigrams, los documentos reales ya violan la suposición de independencia. Condicionado a tener a Obama en un documento, es mucho más probable que el presidente aparezca. No obstante, Naive Bayes todavía hace un trabajo decente en la clasificación, incluso si las estimaciones de probabilidad que da no se desesperan. Por lo tanto, le recomiendo que continúe y agregue características más complejas a su clasificador y vea si mejoran la precisión.

Si obtiene la misma precisión con menos datos, eso es básicamente equivalente a obtener una mejor precisión con la misma cantidad de datos.

Por otro lado, el uso de características más simples y más comunes funciona mejor a medida que disminuye la cantidad de datos. Si intenta ajustar demasiados parámetros a muy pocos datos, tiende a superponerse mal.

Pero la conclusión es probarlo y ver.

Otros consejos

No, desde un punto de vista teórico, no va a cambiar la independencia de la asunción.Simplemente creando una modificación (o nuevo) espacio muestral.En general, una vez que usted comience a usar más altos de n-gramas como eventos en el espacio muestral, los datos de dispersión se convierte en un problema.Creo que el uso de tuplas tendrá el mismo problema.Usted probablemente necesitará más datos de entrenamiento, no menos.Probablemente también le tiene que dar un poco más de pensamiento para el tipo de suavizado de utilizar.Simple suavizado de Laplace puede no ser ideal.

El punto más importante, creo, es este:lo clasificador está utilizando, las características son altamente dependientes del dominio (e incluso a veces el conjunto de datos).Por ejemplo, si usted está clasificando sentimiento de textos basados en críticas de cine, utilizando sólo unigrams puede parecer contrario a la intuición, pero realizan mejor que el uso de sólo los adjetivos.Por otro lado, para twitter conjuntos de datos, una combinación de unigrams y dígrafos fueron encontrados para ser bueno, pero más de n-gramas no eran útiles.Basándose en dichos informes (ref.Pang y Lee, Opinión de minería de datos y el Análisis de Sentimiento), Creo que el uso más tuplas se muestran resultados similares, ya que, después de todo, las tuplas de las palabras son simplemente puntos en un mayor espacio tridimensional.El algoritmo básico se comporta de la misma manera.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow