Вопрос

Я в процессе разработки структуры обнаружения плагиата.Там мы сначала предварительно назначим документы в средствах stemming, замена синонима и удаления слов.Таким образом, предварительно обработанный документ несколько отличается от исходного документа.

После ввода предварительно обработанного документа к нашему плагиату функции, он возвращает аналогичные предложения.

Тогда в нашем графическом интерфейсе мы должны отображать два документа и аналогичные предложения путем выделения.

Чтобы выделить в Java, мы должны получить индекс слова и выделить.

Проблема в том, что предварительно обработанный текст отличается от исходного документа, поэтому трудно индексировать аналогичные предложения в исходном документе.

Может кто-нибудь помочь мне с этой проблемой ??

Это было полезно?

Решение

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top