퍼지로 중복 텍스트를 감지하는 방법
-
04-07-2019 - |
문제
어떤 일 전에, 나는 쓴다 작은 스크립트 사용 텍스트 :: Dedupe 블로그 게시물의 복제물을 제거하기 전에 눈을 떼어야합니다.
읽고 나서 웹의 구문 클러스터링 어떤 구현이 기반을 둔지에 대한 논문, 나는 겹치는 문서를 찾을 수있는 능력을 갖고 싶습니다 (예 : 전체 텍스트가 아닌 블로그 스 니펫, 아마도 인용문).
C, C ++ 또는 Perl의 다른 구현을 알고 있습니까?
해결책
Spotsigs는 내 청구서에 맞는 것 같습니다. 여기에 몇 가지 참조가 있습니다.
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
이 모듈의 Soruce 코드는 GitHub에서 호스팅됩니다.
제휴하지 않습니다 StackOverflow