Domanda

Ho un insieme di documenti informali (paio di migliaia) che voglio applicare la modellazione argomento (MALLET) su. Il problema è che ci sono un numero considerevole di parole errate nei documenti. La maggior parte sono intenzionali, come ad esempio corto-forme e gergo locale come ` 'juz' -> 'solo', 'alr' -> 'gia'. Un paio di queste variazioni esiste, a causa di stili peculiari dei diversi autori di scrittura.

Dopo vengano somministrate ai MALLET, ho un pò fastidio che uno dei temi generati è in realtà un insieme di stopword errate. Credo che queste parole sono per lo più utilizzati nel piccolo sottoinsieme di documenti dello stesso autore, quindi MALLET lo raccolse.

La mia domanda è, faccio il controllo ortografico e correggere questi insiemi di parole errate, e forse da qualche parte Salvare il testo corretto, prima di svolgere altri compiti su di loro? Suppongo che questo avrebbe significato che ho bisogno di verificare manualmente le correzioni prima di commettere a destra? Quale sarebbe il modo più "efficiente" per fare questo?

O posso effettivamente ignorare queste parole errate?

È stato utile?

Soluzione

Che cosa fate con stopwords in questo momento? Se si sta facendo argomento modellazione, allora avrebbe senso per filtrare fuori. Se è così, perché non filtrare questi termini troppo?

[Modifica in risposta alla risposta]

C'è qualche ricerca sulla gestione di stopword all'interno LDA in modo più di principio. Ci sono due documenti che la primavera in mente:

  1. schemi dei termini di ponderazione per Latent Dirichlet Allocation
  2. Ripensare LDA: Perché Priori Materia.

[ 1 ] utilizza un sistema di ponderazione termine che a quanto pare aiuta in un compito predittivo hanno istituito, [ 2 ] utilizza un non simmetrica prima sopra la parola distribuzioni che apparentemente porta ad alcuni argomenti che contengono tutte le parole di stop, e cioè comuni a tutto il corpus.

Mi sembra che il miglior modo per automaticamente dedurre parole stop e altre parole non argomento in LDA è ancora una domanda di ricerca.

Altri suggerimenti

Non credo che possiamo rispondere che senza conoscere l'impatto delle parole errate o parole con errori di ortografia miscorrected sul risultato del tuo argomento di modellazione. Quindi, se si potesse dare più informazioni, che sarebbe bene.

Tuttavia, avrei pensato che si voleva per correggerli, almeno dove la correzione è chiaramente l'intento dell'autore originale.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top