Question

Je suis en train de développer un cadre de détection de plagiat.Nous prétendons d'abord les documents dans les moyens de stemming, de synonyme de remplacement et de suppression des mots d'arrêt.Donc, le document prétraité est quelque peu différent du document original.

Après avoir entré le document prétraité à notre fonction de plagiat, il renvoie les phrases similaires.

Dans notre interface graphique, nous devons afficher les deux documents et les phrases similaires en mettant en évidence.

Pour mettre en évidence dans Java, nous devons obtenir l'index des mots et mettre en évidence.

Le problème est que le texte prétraité est différent du document d'origine, il est donc difficile d'indexer les phrases similaires dans le document original.

Quelqu'un peut-il m'aider avec ce problème ??

Était-ce utile?

La solution

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top