Что такое хороший инструмент для веб-сканирования?

StackOverflow https://stackoverflow.com/questions/176820

  •  05-07-2019
  •  | 
  •  

Вопрос

Мне нужно проиндексировать множество веб-страниц, какие есть хорошие утилиты для поиска веб-страниц? Я предпочитаю что-то, с чем может общаться .NET, но это не шоу-стоппер.

Что мне действительно нужно, так это то, что я могу дать URL сайта & amp; он будет переходить по каждой ссылке и сохранять контент для индексации.

Это было полезно?

Решение

HTTrack - http://www.httrack.com/ - очень хороший копир сайта , Работает довольно хорошо. Давно пользуюсь.

Nutch - это веб-сканер (сканер - это тип программы, который вы ищете) - http: / /lucene.apache.org/nutch/ , в котором используется первоклассная поисковая утилита lucene.

Другие советы

Crawler4j - это сканер Java с открытым исходным кодом, который предоставляет простой интерфейс для сканирования в Интернете. Вы можете настроить многопоточный веб-сканер за 5 минут.

Вы можете установить собственный фильтр для посещения страниц или нет (URL) и определить некоторые операции для каждой просматриваемой страницы в соответствии с вашей логикой.

Некоторые причины выбрать crawler4j;

<Ол>
  • Многопоточная структура,
  • Вы можете установить глубину сканирования,
  • Это на основе Java и с открытым исходным кодом,
  • Контроль за избыточными ссылками (URL),
  • Вы можете установить количество страниц для сканирования,
  • Вы можете установить размер страницы для сканирования,
  • Достаточно документации
  • Searcharoo.NET содержит паука, который сканирует и индексирует контент, и поисковой системой для его использования. Вы сможете найти способ обойти код Searcharoo.Indexer.EXE, чтобы перехватывать содержимое по мере его загрузки и добавлять свой собственный код оттуда ...

    Это очень простой (весь исходный код включен, и он объясняется в шести статьях CodeProject, последняя из которых находится здесь Searcharoo v6 ): паук следует ссылкам, изображениям, изображениям, подчиняется директивам ROBOTS, анализирует некоторые типы файлов, отличные от HTML. Он предназначен для отдельных веб-сайтов (не для всего веб-сайта).

    Nutch / Lucene почти наверняка является более надежным / коммерческим решением, но я не смотрел на их код. Не уверен, что вы хотите достичь, но вы также видели Microsoft Search Server Express ?

    Отказ от ответственности: я автор Searcharoo; просто предлагая это здесь в качестве опции.

    Sphider довольно хорош. Это PHP, но это может помочь.

    Я использую программное обеспечение Mozenda для веб-скрапинга . Вы можете легко просканировать все ссылки и получить всю необходимую информацию, и это здорово софт за деньги.

    Я еще не использовал это, но это выглядит интересно. Автор написал это с нуля и выложил как сделал. Код для этого также доступен для скачивания.

    Лицензировано под: CC-BY-SA с атрибуция
    Не связан с StackOverflow
    scroll top