Лучшие практики для службы поиска URL-адресов?Как не стать вектором атаки?
Вопрос
Я работаю над веб-инструментом, который по URL-адресу будет извлекать текст и предоставлять пользователю некоторую статистику по контенту.
Я обеспокоен тем, что предоставление пользователям возможности инициировать GET-запрос с моего компьютера на любой произвольный URL-адрес в сети может послужить вектором для атак (например,к http://undefended.box/broken-sw/admin?do_something_bad
).
Есть ли способы минимизировать этот риск?Есть ли какие-либо передовые методы предоставления возможностей поиска общедоступных URL-адресов?
Некоторые идеи, о которых я подумал:
- почитание
robots.txt
- принятие или отклонение только определенных шаблонов URL-адресов
- проверка черного/белого списка соответствующих сайтов (если такой существует)
- работа через общедоступный веб-прокси известной третьей стороны, при условии, что они уже встроили эти меры безопасности
Спасибо за вашу помощь.
Редактировать:Он будет оценивать только HTML или текстовый контент без загрузки или оценки связанных скриптов, изображений и т. д.Если HTML, я буду использовать парсер HTML.
Решение
Будет ли статистика? только о тексте в документе?Собираетесь ли вы оценить его с помощью парсера HTML?
Если вы собираетесь анализировать только текст, то есть без скачивания дальнейших ссылок, оценки скриптов и т.п.тогда риск менее серьезен.
Вероятно, не помешало бы пропустить каждый загружаемый вами файл через антивирусную программу.Вам также следует ограничить GET определенными типами контента (т.е.не скачивайте двоичные файлы;убедитесь, что это какая-то текстовая кодировка).