Что такое хороший инструмент для веб-сканирования?

https://stackoverflow.com/questions/176820

05-07-2019
|

Вопрос

Мне нужно проиндексировать множество веб-страниц, какие есть хорошие утилиты для поиска веб-страниц? Я предпочитаю что-то, с чем может общаться .NET, но это не шоу-стоппер.

Что мне действительно нужно, так это то, что я могу дать URL сайта & amp; он будет переходить по каждой ссылке и сохранять контент для индексации.

Решение

HTTrack - http://www.httrack.com/ - очень хороший копир сайта , Работает довольно хорошо. Давно пользуюсь.

Nutch - это веб-сканер (сканер - это тип программы, который вы ищете) - http: / /lucene.apache.org/nutch/ , в котором используется первоклассная поисковая утилита lucene.

Другие советы

Crawler4j - это сканер Java с открытым исходным кодом, который предоставляет простой интерфейс для сканирования в Интернете. Вы можете настроить многопоточный веб-сканер за 5 минут.

Вы можете установить собственный фильтр для посещения страниц или нет (URL) и определить некоторые операции для каждой просматриваемой страницы в соответствии с вашей логикой.

Некоторые причины выбрать crawler4j;

<Ол>

Многопоточная структура,

Вы можете установить глубину сканирования,

Это на основе Java и с открытым исходным кодом,

Контроль за избыточными ссылками (URL),

Вы можете установить количество страниц для сканирования,

Вы можете установить размер страницы для сканирования,

Достаточно документации

Searcharoo.NET содержит паука, который сканирует и индексирует контент, и поисковой системой для его использования. Вы сможете найти способ обойти код Searcharoo.Indexer.EXE, чтобы перехватывать содержимое по мере его загрузки и добавлять свой собственный код оттуда ...

Это очень простой (весь исходный код включен, и он объясняется в шести статьях CodeProject, последняя из которых находится здесь Searcharoo v6 ): паук следует ссылкам, изображениям, изображениям, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличные от HTML. Он предназначен для отдельных веб-сайтов (не для всего веб-сайта).

Nutch / Lucene почти наверняка является более надежным / коммерческим решением, но я не смотрел на их код. Не уверен, что вы хотите достичь, но вы также видели Microsoft Search Server Express ?

Отказ от ответственности: я автор Searcharoo; просто предлагая это здесь в качестве опции.

Sphider довольно хорош. Это PHP, но это может помочь.

Я использую программное обеспечение Mozenda для веб-скрапинга . Вы можете легко просканировать все ссылки и получить всю необходимую информацию, и это здорово софт за деньги.

Я еще не использовал это, но это выглядит интересно. Автор написал это с нуля и выложил как сделал. Код для этого также доступен для скачивания.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow