문제

어떤 일 전에, 나는 쓴다 작은 스크립트 사용 텍스트 :: Dedupe 블로그 게시물의 복제물을 제거하기 전에 눈을 떼어야합니다.

읽고 나서 웹의 구문 클러스터링 어떤 구현이 기반을 둔지에 대한 논문, 나는 겹치는 문서를 찾을 수있는 능력을 갖고 싶습니다 (예 : 전체 텍스트가 아닌 블로그 스 니펫, 아마도 인용문).

C, C ++ 또는 Perl의 다른 구현을 알고 있습니까?

도움이 되었습니까?

해결책

Spotsigs는 내 청구서에 맞는 것 같습니다. 여기에 몇 가지 참조가 있습니다.

이 모듈의 Soruce 코드는 GitHub에서 호스팅됩니다.

http://github.com/jzawodn/perl-text-spotsig

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top