Pregunta

Quiero analizar un documento para elementos como letras, bigrams, palabras, etc. y comparar lo frecuentes que están en mi documento con la frecuencia de lo frecuentes que eran sobre un gran corpus de documentos.

La idea es que palabras como "si" y "," los "son comunes en todos los documentos, pero algunas palabras serán mucho más comunes en este documento de lo que es típico para el corpus.

Esto debe ser bastante estándar. ¿Cómo se llama? Hacerlo de la manera obvia que siempre tuve un problema con las palabras novedosas en mi documento, pero no en la calificación del corpus infinitamente significativa. ¿Cómo se trata esto?

¿Fue útil?

Solución

lo más probable es que ya haya revisado el TF-IDFo algunas otras métricas de okapi_bm25 familia.

También puedes comprobar Kit de herramientas de procesamiento de lenguaje natural NLTK Para algunas soluciones listas

ACTUALIZACIÓN: En cuanto a las palabras novedosas, se debe aplicar suavizado: Guapo, Laplace, etc.

Otros consejos

Viene bajo el encabezado de clasificadores lineales, siendo los clasificadores bayesianos ingenuos la forma más conocida (debido a su notablemente simplicidad y robustez en el ataque de problemas de clasificación del mundo real).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top