سؤال

أنا في عملية تطوير إطار الكشف عن الانتحال.هناك أول مواد لمعالجة المستندات في وسيلة النجمة والاستبدال مرادف وإيقاف إزالة الكلمة.لذلك يتم تختلف المستند المسبق إلى حد ما عن المستند الأصلي.

بعد أن ندخل المستند المسبق إلى وظيفة الانتحال لدينا، فإنه بإرجاع الجمل المشابهات.

ثم في واجهة المستخدم الرسومية لدينا، علينا عرض المستندين وجمل مماثل عن طريق تسليط الضوء عليه.

لتسليط الضوء في جافا علينا الحصول على فهرس الكلمات وتسليط الضوء عليه.

المشكلة هي أن النص المسبق يختلف عن المستند الأصلي، لذلك من الصعب فهرسة جمل مماثلة في المستند الأصلي.

هل يمكن لأي شخص أن يساعدني في هذه المشكلة؟

هل كانت مفيدة؟

المحلول

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top