Что такое хороший инструмент для веб-сканирования?
-
05-07-2019 - |
Вопрос
Мне нужно проиндексировать множество веб-страниц, какие есть хорошие утилиты для поиска веб-страниц? Я предпочитаю что-то, с чем может общаться .NET, но это не шоу-стоппер.
Что мне действительно нужно, так это то, что я могу дать URL сайта & amp; он будет переходить по каждой ссылке и сохранять контент для индексации.
Решение
HTTrack - http://www.httrack.com/ - очень хороший копир сайта , Работает довольно хорошо. Давно пользуюсь.
Nutch - это веб-сканер (сканер - это тип программы, который вы ищете) - http: / /lucene.apache.org/nutch/ , в котором используется первоклассная поисковая утилита lucene.
Другие советы
Crawler4j - это сканер Java с открытым исходным кодом, который предоставляет простой интерфейс для сканирования в Интернете. Вы можете настроить многопоточный веб-сканер за 5 минут.
Вы можете установить собственный фильтр для посещения страниц или нет (URL) и определить некоторые операции для каждой просматриваемой страницы в соответствии с вашей логикой. Р>
Некоторые причины выбрать crawler4j;
<Ол>Searcharoo.NET содержит паука, который сканирует и индексирует контент, и поисковой системой для его использования. Вы сможете найти способ обойти код Searcharoo.Indexer.EXE, чтобы перехватывать содержимое по мере его загрузки и добавлять свой собственный код оттуда ...
Это очень простой (весь исходный код включен, и он объясняется в шести статьях CodeProject, последняя из которых находится здесь Searcharoo v6 ): паук следует ссылкам, изображениям, изображениям, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличные от HTML. Он предназначен для отдельных веб-сайтов (не для всего веб-сайта).
Nutch / Lucene почти наверняка является более надежным / коммерческим решением, но я не смотрел на их код. Не уверен, что вы хотите достичь, но вы также видели Microsoft Search Server Express ?
Отказ от ответственности: я автор Searcharoo; просто предлагая это здесь в качестве опции.
Sphider довольно хорош. Это PHP, но это может помочь.
Я использую программное обеспечение Mozenda для веб-скрапинга . Вы можете легко просканировать все ссылки и получить всю необходимую информацию, и это здорово софт за деньги. Р>
Я еще не использовал это, но это выглядит интересно. Автор написал это с нуля и выложил как сделал. Код для этого также доступен для скачивания.