Domanda

Sono in un processo di sviluppo di un quadro di rilevamento del plagio.Ci siamo prima preprocesso i documenti nei mezzi di stemming, sostituzione del sinonimo e rimozione della parola di arresto.Quindi il documento preprocesso è in qualche modo diverso dal documento originale.

Dopo aver inserito il documento pre-elaborato per la nostra funzione di plagio, restituisce le frasi simili.

Poi nella nostra GUI dobbiamo visualizzare i due documenti e le frasi simili evidenziando.

Per evidenziare in Java dobbiamo ottenere l'indice delle parole ed evidenziare.

Il problema è che il testo pre-elaborato è diverso dal documento originale, quindi è difficile indicizzare le frasi simili nel documento originale.

Qualcuno può aiutarmi con questo problema ??

È stato utile?

Soluzione

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top