Best Practices für die URL-Retrieval-Service? Wie sein Angriffsvektor zu vermeiden?

https://stackoverflow.com/questions/600349

03-07-2019
|

Frage

ich mit einem Web-Tool bin bastelt, die eine URL angegeben, wird der Text abgerufen werden und der Benutzer einige Statistiken über den Inhalt geben.

Ich mache mir Sorgen, dass die Benutzern eine Möglichkeit zu geben auf dem Netz eine GET-Anforderung von meiner Box auf eine beliebige URL zu initiieren kann als Vektor für Angriffe dienen (zum Beispiel http://undefended.box/broken-sw/admin?do_something_bad).

Gibt es Möglichkeiten, dieses Risiko zu minimieren? Best Practices beim Bieten öffentlichen URL abrufen Kapazität?

Einige Ideen, die ich gedacht habe über:

honoring robots.txt
Annahme oder Ablehnung nur bestimmte URL-Muster
Überprüfen Black- / Whitelist von entsprechenden Stellen (wenn es so etwas gibt)
Arbeiten durch eine gut 3rd-Party öffentliches Web-Proxy bekannt ist, unter der Annahme, dass sie bereits in diesen Schutzmaßnahmen gebaut haben

Danke für Ihre Hilfe.

Edit:. Es Auswertung nur HTML oder Textinhalt werde, ohne Download oder verknüpfte Skripte Auswertung, Bilder, etc. Wenn HTML, ich werde ein HTML-Parser verwenden

Lösung

Werden die Statistiken zu nur über den Text in dem Dokument? Werden Sie es mit einem HTML-Parser bewerten?

Wenn es nur der Text, den Sie gehen zu analysieren, das heißt, ohne weitere Links herunterzuladen, Skripte Auswertung usw. dann ist das Risiko weniger schwerwiegend ist.

Es wäre wahrscheinlich nicht schaden jeder Sie durch ein Anti-Virus-Programm herunterladen Datei zu übergeben. Sie sollten auch die GETs auf bestimmten Content-Typen beschränken (das heißt nicht Binärdateien herunterladen, stellen Sie sicher, dass es irgendeine Art von Textcodierung ist).

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow