我在开发抄袭检测框架的过程中。在那里,我们首先预处理源的手段,同义词替换和停止删除。因此,预处理的文档略有不同于原始文档。

在我们输入预处理的文档之前,我们的抄袭函数返回类似的句子。 然后在我们的GUI中,我们必须通过突出显示两个文档和类似的句子。

在Java中突出显示我们必须获得单词和突出显示的索引。

问题是预处理的文本与原始文档不同,因此很难索引原始文档中的类似句子。

任何人都可以帮助我解决这个问题吗?

有帮助吗?

解决方案

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top