comment gérer les mots mal orthographiés dans les documents pour les tâches d'exploration de texte?

StackOverflow https://stackoverflow.com/questions/4276500

  •  28-09-2019
  •  | 
  •  

Question

J'ai un ensemble de documents informels (couple de milliers) que je veux appliquer la modélisation sujet (MALLET) sur. Le problème est, il y a un nombre considérable de mots mal orthographiés dans les documents. La plupart sont intentionnelles, telles que les formes de court et jargon local comme ` « juz » -> « juste », « alr » -> « déjà ». Un couple de ces variations existe, en raison de styles particuliers de l'écriture des différents auteurs.

Après les nourrir à MALLET, je pris la peine un peu que l'un des sujets générés est en fait un ensemble de fautes d'orthographe des mots vides. Je crois que ces mots sont principalement utilisés dans le petit sous-ensemble de documents du même auteur, d'où il a pris MALLET.

Ma question est, dois-je vérifier l'orthographe et de corriger ces ensembles de mots mal orthographiés, et peut-être sauver l'endroit de texte corrigé, avant d'effectuer d'autres tâches sur eux? Je suppose que cela signifie que je besoin de vérifier manuellement les corrections avant de vous engager à droite? Quelle serait la façon la plus « efficace » de le faire?

Ou dois-je passer outre les mots mal orthographiés?

Était-ce utile?

La solution

Que faites-vous avec les mots vides pour le moment? Si vous faites la modélisation de sujet, il serait logique de les filtrer. Si oui, pourquoi ne pas filtrer ces termes aussi?

[Modifier en réponse à la réponse]

Il y a quelques recherches sur la gestion au sein de LDA dans les mots vides d'une manière plus fondée sur des principes. Il y a deux documents qui viennent à l'esprit:

  1. terme de pondération pour les systèmes Latent Dirichlet Allocation
  2. Rethinking LDA: Pourquoi prieurs matière.

[ 1] utilise un système de pondération à long terme qui, apparemment, aide à une tâche prédictive ils ont créé, [ 2 ] utilise un avant non symétrique sur les distributions de mots qui apparemment conduit à quelques sujets qui contiennent tous les mots d'arrêt et d'autres mots communs à l'ensemble du corpus.

Il me semble que la meilleure façon de automatiquement déduire des mots d'arrêt et d'autres mots non-sujet dans LDA est toujours une question de recherche.

Autres conseils

Je ne pense pas que nous pouvons répondre sans connaître l'impact des mots mal orthographiés ou miscorrected mots mal orthographiés sur les résultats de votre modélisation sujet. Donc, si vous pouviez donner plus d'informations, ce serait bien.

Cependant, je l'aurais pensé que vous vouliez les corriger, au moins lorsque la correction est clairement l'intention de l'auteur original.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top