Лучшие практики для службы поиска URL-адресов?Как не стать вектором атаки?

https://stackoverflow.com/questions/600349

03-07-2019
|

Вопрос

Я работаю над веб-инструментом, который по URL-адресу будет извлекать текст и предоставлять пользователю некоторую статистику по контенту.

Я обеспокоен тем, что предоставление пользователям возможности инициировать GET-запрос с моего компьютера на любой произвольный URL-адрес в сети может послужить вектором для атак (например,к http://undefended.box/broken-sw/admin?do_something_bad).

Есть ли способы минимизировать этот риск?Есть ли какие-либо передовые методы предоставления возможностей поиска общедоступных URL-адресов?

Некоторые идеи, о которых я подумал:

почитание robots.txt
принятие или отклонение только определенных шаблонов URL-адресов
проверка черного/белого списка соответствующих сайтов (если такой существует)
работа через общедоступный веб-прокси известной третьей стороны, при условии, что они уже встроили эти меры безопасности

Спасибо за вашу помощь.

Редактировать:Он будет оценивать только HTML или текстовый контент без загрузки или оценки связанных скриптов, изображений и т. д.Если HTML, я буду использовать парсер HTML.

Решение

Будет ли статистика? только о тексте в документе?Собираетесь ли вы оценить его с помощью парсера HTML?

Если вы собираетесь анализировать только текст, то есть без скачивания дальнейших ссылок, оценки скриптов и т.п.тогда риск менее серьезен.

Вероятно, не помешало бы пропустить каждый загружаемый вами файл через антивирусную программу.Вам также следует ограничить GET определенными типами контента (т.е.не скачивайте двоичные файлы;убедитесь, что это какая-то текстовая кодировка).

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow