문제

나는 표절 탐지 프레임 워크를 개발하는 과정에있다.거기에서 우리는 분석, 동의어 교체 및 단어 제거를 중지하는 수단에서 문서를 먼저 전처리합니다.따라서 전처리 된 문서는 원본 문서와 다소 다릅니다.

우리가 전처리 된 문서를 우리의 표절 함수에 입력하면 비슷한 문장을 반환합니다.

그런 다음 GUI에서 우리는 강조 표시하여 두 문서와 비슷한 문장을 표시해야합니다.

Java에서 강조 표시하려면 단어와 하이라이트의 색인을 가져와야합니다.

문제는 사전 처리 된 텍스트가 원래 문서와 다른 것이므로 원래 문서에서 유사한 문서를 인덱싱하는 것이 어렵다는 것입니다.

아무도이 문제로 나를 도울 수 있습니까 ??

도움이 되었습니까?

해결책

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top