Bayesiano Naive para la detección de tema usando “bolsa de palabras” enfoque

https://stackoverflow.com/questions/2781752

03-10-2019
|

Pregunta

Estoy tratando de poner en práctica un enfoque ingenuo bayseian para encontrar el tema de un documento determinado o arroyo de las palabras. Es que hay un enfoque bayesiano ingenuo que yo podría ser capaz de mirar hacia arriba para esto?

Además, estoy tratando de mejorar mi diccionario a medida que avanzo. Inicialmente, tengo un montón de palabras que se asignan a una serie de temas (no modificable). En función de la ocurrencia de las palabras que no sean los que ya están asignados. Y en función de las ocurrencias de estas palabras que quiero añadirlos a las asignaciones, por lo tanto, la mejora y el aprendizaje de nuevas palabras que se asignan a este tema. Y también cambiando las probabilidades de palabras.

¿Cómo debo ir haciendo esto? Es mi enfoque la correcta?

¿Qué lenguaje de programación sería el más adecuado para la aplicación?

Solución

implementaciones existentes de Bayes Naive

Probablemente sería mejor usar sólo uno de los paquetes existentes de clasificación de documentos que admite el uso de Bayes ingenuo, por ejemplo:.

Python - Para hacer esto utilizando el pitón basada Natural Language Toolkit (NLTK) , consulte la Clasificación de documentos en la libre disposición NLTK libro .

Rubí - Si Ruby es más de lo suyo, se puede utilizar el clasificador joya. Aquí está el código de ejemplo que detecta si las cotizaciones de padre de familia son divertidos o no- divertido .

Perl - Perl tiene la Algoritmo :: NaiveBayes módulo, con un fragmento de ejemplos de uso en el paquete sinopsis .

C # - programadores de C # se puede utilizar nBayes . La página principal del proyecto tiene código de ejemplo para un simple clasificador de correo no deseado / no-spam.

Java - la gente de Java tienen Classifier4J . Se puede ver un código de formación y de puntuación fragmento aquí .

Clasificación Bootstrapping de palabras clave

Parece que usted quiere comenzar con un conjunto de palabras clave que son conocido a señal para ciertos temas y luego utilizar esas palabras claves a bootstrap un clasificador .

Esta es una idea razonablemente inteligente. Echar un vistazo a la de papel texto Classication por bootstrapping con palabras clave, EM y contracción por McCallum y Nigam (1999). Siguiendo este enfoque, que fueron capaces de mejorar la precisión de la clasificación desde el 45% consiguieron mediante el uso de palabras clave no modificable solo al 66% utilizando un clasificador de Bayes ingenuo bootstrap. Por sus datos, este último es cerca de los niveles humanos de acuerdo, ya que la gente acordaron entre sí acerca de documento de etiquetas de 72% del tiempo.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow