Como lidar com palavras incorretas em documentos para tarefas de mineração de texto?

https://stackoverflow.com/questions/4276500

28-09-2019
|

Pergunta

Eu tenho um conjunto de documentos informais (alguns milhares) que quero aplicar a modelagem de tópicos (Mallet). O problema é que há um número considerável de palavras com ortografia nos documentos. A maioria é intencional, como formas curtas e linguagem local como '' juz ' ->' apenas ',' alr ' ->' já '. Algumas dessas variações existem, devido aos estilos peculiares de escrita dos diferentes autores.

Depois de alimentá -los com Mallet, eu meio que incomodei que um dos tópicos gerados seja na verdade um conjunto de palavras de parada com ortografia. Acredito que essas palavras são usadas principalmente no pequeno subconjunto de documentos do mesmo autor, portanto, Mallet o pegou.

Minha pergunta é: verifico e corrigi esses conjuntos de palavras com ortografia, e talvez salvo o texto corrigido em algum lugar, antes de conduzir outras tarefas nelas? Suponho que isso significaria que preciso verificar manualmente as correções antes de cometer certo? Qual seria a maneira mais "eficiente" de fazer isso?

Ou eu realmente ignoro essas palavras incorretas?

Solução

O que você faz com as palavras de parada no momento? Se você estiver fazendo modelagem de tópicos, faria sentido filtrá -los. Se sim, por que você também não filtra estes termos?

Editar em resposta à resposta

Há algumas pesquisas sobre o manuseio de palavras de parada no LDA de uma maneira mais com princípios. Existem dois papéis que vêm à mente:

[1] usa um esquema de ponderação de termo que aparentemente ajuda em uma tarefa preditiva que eles configuram, [2] usa um anterior não simétrico sobre as distribuições de palavras que aparentemente levam a alguns tópicos que contêm todas as palavras de parada e outras palavras comuns a todo o corpus.

Parece-me que a melhor maneira de inferir automaticamente as palavras de parada e outras palavras não tópicas no LDA ainda é uma questão de pesquisa.

Outras dicas

Não acho que possamos responder isso sem saber o impacto de palavras com ortografia ou palavras incorretas incorretas sobre o resultado da sua modelagem de tópicos. Então, se você pudesse fornecer mais informações, isso seria bom.

No entanto, eu pensaria que você queria corrigi -los, pelo menos onde a correção é claramente a intenção do autor original.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow