wie falsch geschriebene Wörter in den Dokumenten für Text-Mining-Aufgaben zu bewältigen?

https://stackoverflow.com/questions/4276500

28-09-2019
|

Frage

Ich habe eine Reihe von informellen Dokumente (paar Tausend), die ich zum Thema Modellierung (MALLET) anwenden möchten. Das Problem ist, gibt es eine beträchtliche Anzahl von falsch geschriebenen Worten in den Dokumenten. Die meisten sind absichtlich, wie Kurzformen und lokalen Jargon wie `‚juz‘->‚nur‘,‚ALR‘->‚bereits‘. Einige dieser Varianten besteht, aufgrund der besonderen Arten des Schreibens verschiedenen Autoren.

Nachdem sie MALLET Fütterung, ich irgendwie gestört, dass eine der generierten Themen ist eigentlich eine Reihe von falsch geschriebenen Stoppwörter. Ich glaube, diese Worte werden meist in kleinen Untergruppe von Dokumenten vom selben Autor verwendet, daher MALLET hob es auf.

Meine Frage ist, kann die Rechtschreibprüfung I und korrigieren diese Sätze von falsch geschriebenen Wörtern, und vielleicht speichern den korrigierten Text irgendwo, bevor weitere Aufgaben Durchführung von ihnen? Ich nehme an, dies würde dazu geführt, dass ich brauche, um manuell die Korrekturen zu überprüfen, bevor richtig zu begehen? Was wäre die „effizient“ Art und Weise, dies zu tun?

Oder eigentlich ignoriere ich diese falsch geschriebene Worte?

Lösung

Was tun Sie mit Stoppwörtern im Moment? Wenn Sie Thema Modellierung tun, dann wäre es sinnvoll, sie zu filtern. Wenn ja, warum Sie diese Bedingungen nicht zu herauszufiltern?

[Edit in Antwort auf Antwort]

Es gibt einige Untersuchungen über Stoppwörter innerhalb LDA in einer prinzip Art und Weise der Handhabung. Es gibt zwei Papiere, dass in dem Sinne:

[ 1 ] verwendet einen Begriff Gewichtungsschema, die offenbar hilft in einer prädiktiven Aufgabe, die sie einrichten, [ 2 ] verwendet ein nicht-symmetrische vor über den Wortverteilungen, die scheinbar führt zu einigen Themen, die alle Stopp-Wörter enthalten, und andere Wörter gemeinsam mit dem gesamten Korpus.

Es scheint mir, dass der beste Weg, um automatisch schließen Stoppwörter und andere Nicht-Thema Wörter in LDA ist immer noch eine Forschungsfrage.

Andere Tipps

Ich glaube nicht, dass wir das, ohne zu wissen, die Auswirkungen von falsch geschriebenen Worten oder miscorrected misspelt Worten über das Ergebnis Ihres Thema Modellierung beantworten können. Also, wenn Sie weitere Informationen geben könnten, das wäre gut.

Allerdings hätte ich gedacht, du, sie korrigieren wollte, zumindest dann, wenn die Korrektur ist eindeutig die Absicht des ursprünglichen Autors.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow