Frage

Ich möchte nur wissen, was Ihre Meinung dazu ist, wie man die HTML-/Link-Struktur per Fingerabdruck erkennt/überprüft.

Das Problem, das ich lösen möchte, ist:Fingerabdruck zum Beispiel 10 verschiedene Websites, HTML-Seiten.Und nach einiger Zeit möchte ich die Möglichkeit haben, sie zu überprüfen, auch wenn die Website geändert wurde, Links geändert wurden, die Überprüfung fehlschlägt oder der Überprüfungserfolg andauert.Meine Grundidee besteht darin, die Linkstruktur zu analysieren, indem ich sie auf irgendeine Weise aufteile, eine Art Baum erstelle und aus diesem Baum eine Art Code erzeuge.Aber ich bin immer noch in der Brainstorming-Phase, in der ich dies mit jemandem besprechen und andere Ideen kennen muss.

Daher wären alle Ideen, Algorithmen und Vorschläge nützlich.

War es hilfreich?

Lösung

Unabhängig davon, welche Daten oder Strukturen Sie hashen, zusammenfassen oder auf andere Weise erfassen möchten, achten Sie darauf, die verschiedenen Formen von Rauschen auf vielen Websites „da draußen“ zu berücksichtigen.

Beispiele für solches Rauschen oder zufällige Inhalte sind:

  • Ticker zum Aktienwert des Unternehmens
  • Wetterbedingungen in der Stadt, in der sie sich befinden
  • Mehrere Seiten haben irgendwo in Fußzeilen oder Kopfzeilen ein aktuelles (aktuelles) Datum und eine aktuelle Uhrzeit
  • Werbeinhalte (immer häufiger werden diese so gestaltet, dass sie direkt auf der Website erscheinen, um Werbeblocker in Webbrowsern zu umgehen)

Andere Tipps

Sie können immer den rohen HTML-Code der Website Hash und vergleichen. Ich glaube, dass Websites können eine „zuletzt geändert“ date halten, aber ich bin nicht sicher, ob dies immer aktualisiert wird.

Edit:. Mein Fehler, das ist einfach eine Möglichkeit, die Website zu einer früheren Version zu vergleichen, aber es wirklich nicht Fingerabdruck in der Art und Weisen Sie bedeuten

Werfen Sie dieses Bild Gerade da draußen:

Warum nicht Sie die Website kriechen, alle Links in einem XML-Dokument setzen, die die Karte der Website darstellen würde.

Erstellen Sie ein MD5-Prüfsumme für diese Datei und speichert. Dann jederzeit in der Zukunft könnten Sie erneut durchsuchen, erstellen Sie die XML, wiederholen Sie die Prüfsumme und vergleichen Sie es mit Ihrer früheren Prüfsumme.

Wenn sie nicht übereinstimmen, wird die Link-Struktur hat sich geändert -. Sie können sie aber nicht unbedingt wissen, wo

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top