Pregunta

Hola quería saber que es posible el uso de árboles de decisión para la clasificación de documentos y si sí, entonces cómo deben ser ser la representación de datos? Sé que el uso de R paquete partido de árboles de decisión.

¿Fue útil?

Solución

Una manera es tener una matriz enorme donde cada fila es un documento, y cada columna es una palabra. Y los valores de las celdas son el número de veces que la palabra mostró en ese documento.

A continuación, si se trata de casos "aprendizaje supervisado", que debería tener otra columna para el clasificador, ya partir de ahí se puede utilizar un comando como "rpart" (del paquete rpart), para crear su árbol de clasificación . El comando se entra en una fórmula para rpart, de una manera similar como lo haría para un modelo lineal (lm).

Si lo desea, podría también tratar de primer grupo sus palabras a "grupos de palabras", y luego tener cada columna que pertenece a un grupo diferente de las palabras, con una indicación del número de la cantidad de palabras en el documento pertenecían a ese grupo . Para que iba a tener un vistazo al paquete "tm". (Si usted termina de hacer algo con eso, por favor considere tal vez publicar sobre él aquí, así que podríamos aprender de ella)

Best, Tal

Otros consejos

Este documento da una reseña de las distintas técnicas de categorización de texto y sus exactitudes. En resumen, se puede categorizar texto con los árboles de decisión, pero hay otros algoritmos que son mucho mejores.

Sebastiani, F. (2002). El aprendizaje automático en la categorización automática de texto. ACM Computing Encuestas, cs.IR/0110053v1. Disponible a partir de: http://arxiv.org/abs/cs.IR/0110053v1 .

lo dudo - al menos como se define típicamente, un árbol de decisiones utiliza un único criterio para especificar un sub-rama. En la clasificación de los documentos, puede raramente base de mucho de nada en un solo criterio - que necesita múltiples criterios, y aun así no obtiene una clara árbol similar a la decisión, sino un "esto es un poco más cercana a la de la otra cosa" tipo de resultado.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top