Лучшая библиотека или приложение с открытым исходным кодом для сканирования и анализа веб-сайтов

StackOverflow https://stackoverflow.com/questions/759363

Вопрос

Я хотел бы знать, какая библиотека с открытым исходным кодом лучше всего подходит для сканирования и анализа веб-сайтов.Одним из примеров может служить краулерное агентство недвижимости, где я хотел бы получить информацию с нескольких сайтов и объединить ее на своем собственном сайте.Для этого мне нужно просканировать сайты и извлечь объявления о недвижимости.

Это было полезно?

Решение

Я много занимаюсь парсингом, используя отличные пакеты Python. urllib2, механизировать и КрасиваяСуп.

Я также предлагаю посмотреть lxml и лоскутный, хотя в настоящее время я ими не пользуюсь (все еще планирую попробовать Scrapy).

Язык Perl также имеет отличные возможности для парсинга.

Другие советы

PHP/cURL — очень мощная комбинация, особенно если вы хотите использовать результаты непосредственно на веб-странице...

Как и господин Морозов, я тоже немало занимаюсь парсингом, в основном с сайтов вакансий.Мне никогда не приходилось прибегать к механизации, если это кому-нибудь поможет.Beautifulsoup в сочетании с urllib2 всегда было достаточно.

Я использовал lxml, и это здорово.Однако я полагаю, что несколько месяцев назад, когда я пробовал, он мог быть недоступен в приложениях Google, если вам это нужно.

Я благодарен г-ну Морозову за упоминание Scrapy.Не слышал об этом.

Помимо Scrapy, вам также следует посмотреть Парселеты

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top