如何检测具有一定模糊性的重复文本
-
04-07-2019 - |
题
前一段时间,我写过 小脚本 使用 文本::重复数据删除 在我必须关注博客文章之前删除它们的重复项。
看完之后 Web 的句法聚类 实现所基于的论文,我希望能够找到重叠的文档(例如博客的片段而不是全文,也许还有引用)。
您是否知道我可以在编写自己的 C、C++ 或 Perl 实现之前尝试其他任何实现?
解决方案
SpotSigs 似乎正好符合我的要求,以下是一些参考:
- http://dbpubs.stanford.edu/pub/2008-10
- http://infoblog.stanford.edu/2008/08/spotsigs-are-stopwords-finally-good-for.html
- http://ilpubs.stanford.edu:8090/860/
该模块的源代码托管在 GitHub 上:
不隶属于 StackOverflow