robots.txt를 존중하지 않는 Googlebot [폐쇄

https://stackoverflow.com/questions/463569

19-08-2019
|

문제

Google Webmaster Tool의 "Analyze Robots.txt"를 확인하여 Robots.txt 파일에서 어떤 URL이 차단되었는지 확인할 때 어떤 이유로 든 기대하는 것은 아닙니다. 다음은 파일의 시작 부분에서 스 니펫입니다.

Sitemap: http://[omitted]/sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: http://[omitted]/Living/books/book-review-not-stupid.aspx
Disallow: http://[omitted]/Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: http://[omitted]/Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

스크립트 폴더의 모든 것이 GoogleBot 및 MediaPartners-Google 모두에 대해 올바르게 차단됩니다. Googlebot은 스크립트가 7 행에서 차단되었고 MediaPartners-Google은 4 행에서 차단되었다고 말하면서 두 로봇이 올바른 지침을보고 있음을 알 수 있습니다. -에이전트 지침은 차단되지 않습니다!

내 의견이나 절대 URL을 사용하는지 궁금합니다.

모든 통찰력에 감사드립니다. 감사.

해결책

그들이 무시하는 이유는 당신이 완전한 자격을 갖춘 URL을 가지고 있기 때문입니다. robots.txt 파일 Disallow 항목 중 사양 그것을 허용하지 않습니다. ( /를 사용하여 상대 경로 또는 절대 경로 만 지정해야합니다). 다음을 시도하십시오.

Sitemap: /sitemap_index.xml

User-agent: Mediapartners-Google
Disallow: /scripts

User-agent: *
Disallow: /scripts
# list of articles given by the Content group
Disallow: /Living/books/book-review-not-stupid.aspx
Disallow: /Living/books/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx
Disallow: /Living/sportsandrecreation/book-review-running-through-roadblocks-inspirational-stories-of-twenty-courageous-athletic-warriors.aspx

캐싱과 관련하여 Google은 평균 24 시간마다 robots.txt 파일 사본을 받으려고합니다.

다른 팁

절대 URL입니다. robots.txt는 상대적인 uris를 포함해야합니다. 도메인은 robots.txt가 액세스 한 도메인에 따라 추론됩니다.

적어도 일주일이 지났으며 Google은 3 시간 전에 마지막으로 다운로드되었다고 말 했으므로 최근에 확신합니다.

최근에 Robots.txt 파일을 변경 했습니까? 내 경험에 보인다 그 Google은 그 물건을 오랫동안 캐시합니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow