質問

盗作検出フレームワークを開発する過程である。そこで、最初にステミング、同義語の置き換え、停止単語の削除の手段で文書を前処理します。そのため、前処理された文書は元の文書とは多少異なります。

前処理された文書を盗作関数に入力した後、類似文を返します。

それから私たちのGUIでは、2つの文書と同様の文章を強調表示する必要があります。

Javaでハイライトすると、単語のインデックスとハイライトを取得する必要があります。

問題は前処理されたテキストが元の文書と異なるので、元の文書内の類似文を索引付けすることは困難です。

誰もがこの問題を助けてくれることができますか?

役に立ちましたか?

解決

You'll have to store some sort of metadata with the preprocessed document that allows to map the content of it to the original document. Like keeping a list of all gaps that result from stop word removal or storing information on where you replaced words with synonyms.

If you record every change that has been made during preprocessing (location/replaced text) then you should be able to find the original phrase in the original document.

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top