Frage

Ich bin in einem Prozess der Entwicklung eines Plagiat-Erkennungsrahmens.Dort verrühren wir zunächst die Dokumente in den Mitteln von Stemming, Synonymersatz und Stop-Wortentfernung.Das vorverarbeitete Dokument unterscheidet sich also etwas von dem ursprünglichen Dokument.

Nachdem wir das vorverarbeitete Dokument in unsere Plagiat-Funktion eingeben, gibt es die ähnlichen Sätze zurück.

Dann müssen wir in unserer GUI die beiden Dokumente und die ähnlichen Sätze durch Hervorhebung anzeigen.

Zum Highlight in Java müssen wir den Index der Wörter und das Highlight erhalten.

Das Problem ist, dass sich der vorverarbeitete Text vom ursprünglichen Dokument unterscheidet, so dass es schwierig ist, die ähnlichen Sätze im ursprünglichen Dokument zu indexieren.

Kann mir jemand mit diesem Problem helfen?

War es hilfreich?

Lösung

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top