Pregunta

Estoy en un proceso de desarrollo de un marco de detección de plagio.Allí preprocesamos los documentos en los medios de stemming, sinónimo de reemplazo y detener la eliminación de palabras.Por lo tanto, el documento preprocesado es algo diferente del documento original.

Después de ingresar al documento preprocesado a nuestra función de plagio, devuelve las oraciones similares.

Luego, en nuestra GUI, tenemos que mostrar los dos documentos y las oraciones similares al resaltar.

Para resaltar en Java, tenemos que obtener el índice de las palabras y resaltar.

El problema es que el texto preprocesado es diferente del documento original, por lo que es difícil indexar las oraciones similares en el documento original.

¿Puede alguien ayudarme con este problema?

¿Fue útil?

Solución

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top