cómo manejar las palabras mal escritas en los documentos para tareas de minería de texto?

StackOverflow https://stackoverflow.com/questions/4276500

  •  28-09-2019
  •  | 
  •  

Pregunta

Tengo un conjunto de documentos no oficiales (un par de miles), que quiero aplicar el modelado tema (mazo) sucesivamente. El problema es que hay un número considerable de palabras mal escritas en los documentos. La mayoría son intencionales, tales como corto formas y jerga local como ` 'juz' -> 'a', 'ALR' -> 'ya'. Existe un par de estas variaciones, debido a los estilos peculiares de los diferentes autores de la escritura.

Después de alimentar a mazo, yo un poco molesto que uno de los temas generados en realidad es un conjunto de palabras vacías mal escritas. Creo que estas palabras se utilizan sobre todo en el pequeño subconjunto de documentos del mismo autor, por lo tanto, MAZO recogió.

Mi pregunta es, ¿tengo la ortografía de comprobar y corregir estos conjuntos de palabras mal escritas, y tal vez en algún lugar excepto el texto corregido, antes de realizar otras tareas en ellos? Supongo que esto significaba que hago necesidad de comprobar manualmente las correcciones antes de comprometerse a la derecha? ¿Cuál sería la forma más "eficiente" para hacer esto?

O es que en realidad ignoran estas palabras mal escritas?

¿Fue útil?

Solución

¿Qué se hace con palabras vacías en este momento? Si usted está haciendo el modelado tema, entonces tendría sentido para filtrar hacia fuera. Si es así, ¿por qué no a filtrar estos términos también?

[Editar en respuesta a la respuesta]

Existen algunas investigaciones sobre el manejo de las palabras vacías dentro de LDA en una forma más principios. Hay dos documentos que vienen a la mente:

  1. esquemas de términos de ponderación para Latent Dirichlet Asignación
  2. Rethinking LDA: ¿Por qué Priores materia.

[ 1 ] utiliza un esquema de ponderación término que aparentemente ayuda en una tarea de predicción establecieron, [ 2 ] utiliza un no simétrica previo sobre la palabra distribuciones que aparentemente lleva a algunos de los temas que contienen todas las palabras vacías, y otras palabras comunes a todo el corpus.

Me parece que la mejor manera de inferir automáticamente las palabras vacías y otras palabras que no estén relacionados con el tema de LDA sigue siendo un tema de investigación.

Otros consejos

No creo que podamos responder a eso sin conocer el impacto de las palabras mal escritas o palabras mal escritas miscorrected sobre el resultado de su modelado tema. Así que si usted podría dar más información, eso sería bueno.

Sin embargo, yo habría pensado que quería para corregirlos, al menos cuando la corrección es claramente la intención del autor original.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top