Вопрос

Я ищу хорошего бота с открытым исходным кодом для определения качества, которое часто требуется для индексации Google.

Например

  • найти повторяющиеся названия
  • недействительные ссылки (jspider делает это, и я думаю, что многие другие сделают это)
  • одна и та же страница, но разные URL
  • и т. д., где – требования к качеству Google.
Это было полезно?

Решение

Ваши требования очень специфичны, поэтому маловероятно, что существует продукт с открытым исходным кодом, который делает именно то, что вы хотите.

Однако существует множество платформ с открытым исходным кодом для создания веб-сканеров.Какой из них вы используете, зависит от ваших языковых предпочтений.

Например:

Как правило, эти платформы предоставляют классы для сканирования и очистки страниц сайта на основе заданных вами правил, но затем вы можете извлечь необходимые данные, подключив свой собственный код.

Другие советы

Инструменты Google для веб-мастеров это веб-сервис (а не бот по запросу), и он не делает все, что вы просили, но он делает кое-что из этого и многое из того, о чем вы не просили, и - будучи из Google – это, несомненно, соответствует вашему странному «и т. д., где и т. д. — требования Google к качеству». лучше, чем где-либо еще.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top