Erkennen ähnliche Wörter unter n Textdokumente

https://stackoverflow.com/questions/2468625

20-09-2019
|

Frage

Ich habe n Dokumente und wollen gemeinsame Wörter finden, die in diesen Dokumenten enthalten sind. Zum Beispiel möchte ich sagen, (n-3) Dokumente enthalten das Wort "Web".

Sicher kann ich dies tun, indem grundlegende Datenstrukturen, aber es vielleicht effizienter Algorithmus oder eine Art und Weise gleiche Worte mit unterschiedlichen Suffix zu behandeln. Gibt es einen Algorithmus für solche Zwecke?

Ich bin nicht vertraut mit Weltdatamining. In allgemeiner Weise ist es ein Begriff für die Bemühungen verwendeten Ähnlichkeiten zwischen verschiedenen Dokumenten zu finden? Wenn es dann werde ich meine Forschung leicht machen.

Danke.

Lösung

Ich nehme an, dass Sie über stemming sprechen. Wenn Sie die R Sprache verwenden möchten, werden Sie zur Arbeit mit dem haben tm Paket .

Wenn nicht, kann ich nur vorschlagen, diese Liste von Text-Mining-Tool

Andere Tipps

Sie können es tun, indem Sie eine Wortliste mit Zählungen für jedes Dokument Herstellung, Sortieren der Wortliste alphabetisch und Vergleichen von zwei Listen. Dies ist O (n lg n).

Ein weiterer Ansatz ist die Volltextsuche zu verwenden, wie sie durch die Datenbank Ihrer Wahl zur Verfügung gestellt.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow