Frage

Manche Dinge vor, ich schreibe klein Skript mit Text :: DeDupe Duplikate von Blog-Posts zu entfernen, bevor ich habe meine Augen auf ihnen lag.

Nach dem Lesen syntaktische Clustering des Web Papier, auf dem die Umsetzung basiert, ich würde gerne Fähigkeit hat, sich überlappenden Dokumente zu finden (zB Schnipsel von Blogs wie zum Volltext im Gegensatz vielleicht auch zitiert).

Kennen Sie jede andere Implementierung in C, C ++ oder Perl, die ich ausprobieren kann meine eigenen vor dem Schreiben?

War es hilfreich?
Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top