Кто-нибудь получил любой код C # для анализа robots.txt и оценки URL-адресов по нему
-
10-07-2019 - |
Вопрос
Короткий вопрос:
Есть ли у кого-нибудь код C # для анализа robots.txt, а затем для оценки URL-адресов по нему, чтобы узнать, будут ли они исключены или нет.
Длинный вопрос:
Я создавал карту сайта для нового сайта, который еще не был опубликован в Google. Карта сайта имеет два режима: пользовательский режим (например, традиционная карта сайта) и режим администратора. Р>
В режиме администратора будут отображаться все возможные URL-адреса на сайте, включая настраиваемые URL-адреса для входа или URL-адреса для конкретного внешнего партнера, например example.com/oprah
для всех, кто видит наш сайт в Oprah. Я хочу отслеживать опубликованные ссылки где-то, кроме таблицы Excel.
Я должен предположить, что кто-то может опубликовать ссылку / oprah
в своем блоге или где-то еще. На самом деле мы не хотим, чтобы этот «сайт мини-опры» индексировался, потому что это могло бы привести к тому, что зрители, не являющиеся опрами, смогут найти специальные предложения Опры.
Поэтому в то же время, когда я создавал карту сайта, я также добавил URL-адреса, такие как / oprah
, которые будут исключены из нашего файла robots.txt
.
Тогда (и это актуальный вопрос), я подумал: «Не было бы неплохо показать на карте сайта, проиндексированы ли файлы и видны ли они роботам». Это было бы довольно просто - просто проанализируйте robots.txt, а затем оцените ссылку на него.
Однако это «бонусная функция», и у меня, конечно, нет времени, чтобы уйти и написать ее (даже подумал, что это, вероятно, не так уж сложно) - поэтому мне было интересно, если кто-нибудь уже написал какой-либо код для разбора роботов. TXT?
Решение
Ненавижу это говорить, но просто google & Cot robots.txt parser " и нажмите первый удар. Это статья CodeProject о простой поисковой системе, реализованной в C #, которая называется «Searcharoo» и содержит класс Searcharoo.Indexer.RobotsTxt, описываемый как:
<Ол>Проверьте и загрузите файл robots.txt на сайте, если он есть, Предоставьте интерфейс для Spider для проверки каждого URL-адреса на соответствие правилам robots.txt Ол>
Другие советы
Мне нравится код и тесты в http://code.google.com/p/robotstxt/ рекомендую его в качестве отправной точки.
Немного саморекламы, но так как мне нужен был подобный синтаксический анализатор, и я не мог найти ничего, что меня устраивало, я создал свой собственный:
Я хотел бы получить любой отзыв