clasificación de texto / algoritmo de categorización [cerrada]

https://stackoverflow.com/questions/3584472

01-10-2019
|

Pregunta

Mi objetivo es [semi] textos automáticamente asignar a diferentes categorías. Hay un conjunto de categorías definidas por el usuario y un conjunto de textos para cada categoría. El algoritmo ideal debe ser capaz de aprender de una clasificación definida por el ser humano y luego clasificar los nuevos textos de forma automática. ¿Puede alguien sugerir un algoritmo tal o tal vez la biblioteca .NET que implementa ???

Solución

Hacer esto no es trivial. Obviamente se puede construir un diccionario que ciertas palabras clave para categorías. Sólo la búsqueda de una palabra clave podría sugerir una cierta categoría.

Sin embargo, en el texto en lenguaje natural, las palabras clave por lo general no estar en su forma del tronco. Usted tendría que algunas herramientas de morfología para encontrar la forma del tronco y utilizarlo en el diccionario.

Pero entonces alguien podría escribir algo como: "En este artículo no se trata de ...". Esto introduciría la necesidad de sintaxis y la semántica de análisis.

Y entonces se verá que ciertas palabras clave se pueden utilizar en varias categorías: "banda" se podría utilizar en las músicas, Técnica, o incluso el trabajo artesanal. Por lo tanto, se necesita una ontología y métodos estadísticos o de otro tipo para sopesar la probabilidad de la categoría a elegir si no es definitiva.

Algunas de las palabras clave no podría incluso ser fáciles de encajar en una ontología: es el matemático más cerca de programador o un jardinero? Pero usted ha dicho en su pregunta que las categorías son construidos por los hombres, para que pudieran también ayuda la construcción de la ontología.

echar un vistazo a la lingüística computacional aquí y en Wikipedia para estudios posteriores.

Ahora, más angosto el campo de sus textos son de la más estructurados que son, y cuanto menor sea el vocabulario, el problema se hace más fácil el.

de nuevo algunas palabras clave para estudios adicionales: morfología, análisis de sintaxis, semántica, ontología, lingüística computacional, indexación, keywording

Otros consejos

Hay varios enfoques para la clasificación automática de texto. Un clasificador de Bayes ingenuo es posiblemente el más simple de ellos. Otro es el vecino más cercano K-que puede utilizar. Esta respuesta de Google en categorización de texto podría ayudarle.

Reloj mi serie de vídeo exactamente en este tema.

http://vancouverdata.blogspot.com/ 2010/11 / texto-analytics-con-RapidMiner-loading.html

La clasificación es en el video 5, pero los otros videos puede ayudarle a ponerse al día.

Todo está basado en el programa de software libre RapidMiner.

máquina vector

Soporte. ama cada uno Support Vector Machines. Tendrá que hacer un poco de lectura, y tal vez incluso comprar un libro. Pero se podría empezar por leer un papel para ver si te gusta la idea.

este ejemplo scikit de aprender . Hay un montón de diferentes algoritmos aplicados en el ejemplo para que pueda comparar los resultados.

El término general para estos métodos es "métodos multivariantes". Que con una búsqueda en "clasificación de texto" o "categorización de textos" debe abrir algunas pistas útiles. Buena suerte!

He estado buscando la respuesta a esta pregunta durante bastante tiempo. Hoy he encontrado mi respuesta.

No es un programa de código abierto llamado "dbacl" que hace esto. Clasifica los documentos en tantas categorías como desee (hasta un cierto máximo).

El otro responde diciendo cosas como "no triviales" son todas verdaderas, pero tener un paquete fácil de usar que hace las cosas difíciles ayuda mucho a lo que es manejable.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow