Pergunta

Estou em um processo de desenvolvimento de um quadro de detecção de plágio.Lá primeiro primeiro pré-processamento dos documentos nos meios de reposição de sinônimo, de sinônimo e parada a remoção de palavras.Então o documento pré-processado é um pouco diferente do documento original.

Depois de entrarmos no documento pré-processado à nossa função de plágio, ele retorna as frases semelhantes.

Então, em nossa GUI, temos que exibir os dois documentos e as frases semelhantes, destacando.

Para destacar em Java, temos que obter o índice das palavras e destaque.

O problema é que o texto pré-processado é diferente do documento original, por isso é difícil indexar as frases semelhantes no documento original.

Alguém pode me ajudar com esse problema?

Foi útil?

Solução

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top