Кто-нибудь получил любой код C # для анализа robots.txt и оценки URL-адресов по нему

StackOverflow https://stackoverflow.com/questions/633479

  •  10-07-2019
  •  | 
  •  

Вопрос

Короткий вопрос:

Есть ли у кого-нибудь код C # для анализа robots.txt, а затем для оценки URL-адресов по нему, чтобы узнать, будут ли они исключены или нет.

Длинный вопрос:

Я создавал карту сайта для нового сайта, который еще не был опубликован в Google. Карта сайта имеет два режима: пользовательский режим (например, традиционная карта сайта) и режим администратора.

В режиме администратора будут отображаться все возможные URL-адреса на сайте, включая настраиваемые URL-адреса для входа или URL-адреса для конкретного внешнего партнера, например example.com/oprah для всех, кто видит наш сайт в Oprah. Я хочу отслеживать опубликованные ссылки где-то, кроме таблицы Excel.

Я должен предположить, что кто-то может опубликовать ссылку / oprah в своем блоге или где-то еще. На самом деле мы не хотим, чтобы этот «сайт мини-опры» индексировался, потому что это могло бы привести к тому, что зрители, не являющиеся опрами, смогут найти специальные предложения Опры.

Поэтому в то же время, когда я создавал карту сайта, я также добавил URL-адреса, такие как / oprah , которые будут исключены из нашего файла robots.txt .

Тогда (и это актуальный вопрос), я подумал: «Не было бы неплохо показать на карте сайта, проиндексированы ли файлы и видны ли они роботам». Это было бы довольно просто - просто проанализируйте robots.txt, а затем оцените ссылку на него.

Однако это «бонусная функция», и у меня, конечно, нет времени, чтобы уйти и написать ее (даже подумал, что это, вероятно, не так уж сложно) - поэтому мне было интересно, если кто-нибудь уже написал какой-либо код для разбора роботов. TXT?

Это было полезно?

Решение

Ненавижу это говорить, но просто google & Cot robots.txt parser " и нажмите первый удар. Это статья CodeProject о простой поисковой системе, реализованной в C #, которая называется «Searcharoo» и содержит класс Searcharoo.Indexer.RobotsTxt, описываемый как:

  <Ол>   
  • Проверьте и загрузите файл robots.txt на сайте, если он есть,
  •   
  • Предоставьте интерфейс для Spider для проверки каждого URL-адреса на соответствие правилам robots.txt
  •   

    Другие советы

    Мне нравится код и тесты в http://code.google.com/p/robotstxt/ рекомендую его в качестве отправной точки.

    Немного саморекламы, но так как мне нужен был подобный синтаксический анализатор, и я не мог найти ничего, что меня устраивало, я создал свой собственный:

    http://nrobots.codeplex.com/

    Я хотел бы получить любой отзыв

    Лицензировано под: CC-BY-SA с атрибуция
    Не связан с StackOverflow
    scroll top