Wie doppelten Text mit einiger Aufweichung erkennen
-
04-07-2019 - |
Frage
Manche Dinge vor, ich schreibe klein Skript mit Text :: DeDupe Duplikate von Blog-Posts zu entfernen, bevor ich habe meine Augen auf ihnen lag.
Nach dem Lesen syntaktische Clustering des Web Papier, auf dem die Umsetzung basiert, ich würde gerne Fähigkeit hat, sich überlappenden Dokumente zu finden (zB Schnipsel von Blogs wie zum Volltext im Gegensatz vielleicht auch zitiert).
Kennen Sie jede andere Implementierung in C, C ++ oder Perl, die ich ausprobieren kann meine eigenen vor dem Schreiben?
Lösung
SpotSigs meine Rechnung scheint gerade recht zu passen, sind hier einige Referenzen:
- http://dbpubs.stanford.edu/pub/2008-10
- http: //infoblog.stanford edu / 2008/08 / spotsigs-sind-Stoppwörter-endlich-good-for.html
- http://ilpubs.stanford.edu:8090/860/
Der soruce Code für dieses Modul ist auf GitHub:
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow