Vergleichen Sie den Textinhalt von Websites

https://stackoverflow.com/questions/1850456

13-09-2019
|

Frage

Ich experimentiere ein wenig mit Textvergleich / Grundplagiaterkennung und will diese Basis auf einer Website zu Website versuchen. Allerdings bin ich ein bisschen stecken eine richtige Art und Weise zu finden, um den Text zu bearbeiten.

Wie würden Sie verarbeiten und den Inhalt von zwei Websites für Plagiat vergleichen?

Ich denke, so etwas wie dieser Pseudo-Code:

// extract text
foreach website in websites
  crawl website - store structure so pages are only scanned once
  extract text blocks from all pages - store this is in list

// compare      
foreach text in website1.textlist
  compare with all text in website2.textlist

Ich weiß, dass diese Lösung sehr schnell viele Daten ansammeln könnte, so könnte es nur dann möglich sein, um es mit sehr kleinen Websites arbeiten.

Ich habe nicht auf dem tatsächlichen Textvergleichsalgorithmus noch nicht entschieden, aber im Moment bin ich mehr daran interessiert, den eigentlichen Prozess Algorithmus immer arbeiten zuerst.

Ich denke, es wäre eine gute Idee, den gesamten Text als einzelne Textstücke zu extrahieren (aus Absätze, Tabellen, Überschriften usw.), als Text um auf den Seiten bewegen können.

Ich bin die Umsetzung dieses in C # (vielleicht ASP.NET).

Ich bin sehr interessiert an jedem Eingang oder Ratschläge, die Sie vielleicht haben, so wenden Sie sich bitte schießen! :)

Lösung

Mein Ansatz für dieses Problem für bestimmte, ziemlich einzigartige Textblöcke, deren Urheberrecht Sie versuchen, Google wäre zu schützen.

Having said that, wenn Sie Ihre eigene Lösung aufbauen wollen, sind hier einige Kommentare:

Respekt robots.txt. Wenn sie die Website als do-not-Crawl markiert haben, sind die Chancen sie nicht von Ihrem Inhalt versuchen sowieso zu profitieren.
Sie müssen die Website-Struktur aktualisieren Sie von Zeit zu Zeit gespeichert haben, wie Websites ändern.
müssen Sie richtig separaten Text von HTML-Tags und JavaScript.
Sie werden im Wesentlichen benötigen eine Volltextsuche im gesamten Text der Seite (mit Tags / Script entfernt) für den Text, den Sie schützen möchten zu tun. Es gibt gute veröffentlichten Algorithmen für diesen.

Andere Tipps

Sie werden wahrscheinlich mehr Interesse an Fragmente Erkennung sein. zum Beispiel viele Seiten das Wort „Heimat“ auf sie haben und Sie kümmern sich nicht. Aber es ist ziemlich unwahrscheinlich, sehr viele Seiten haben genau die gleichen Worte auf der gesamten Seite. So möchten Sie wahrscheinlich vergleichen und berichten, auf Seiten, die Exct Spiele von Länge 4,5,6,7,8 usw. Wörter und zählt für jede Länge haben. Weisen Sie eine Partitur und gewichten sie und wenn Sie Ihre „magische Zahl“ berichtet über den vermuteten xeroxers überschreiten.

Für C # können Sie den Web-Browsers () verwenden, um eine Seite zu bekommen und ziemlich leicht den Text bekommen. Leider kein Codebeispiel praktisch zum Kopieren / Einfügen aber MSDN hat in der Regel ziemlich gut Proben.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow