사이트의 기본 페이지만 허용하는 robots.txt를 설정하는 방법

문제

내가 사이트를 가지고 있다고 가정해 보세요. http://example.com.봇이 홈 페이지를 볼 수 있도록 허용하고 싶지만 다른 페이지는 스파이더에게 무의미하므로 차단해야 합니다.다시 말해서

또한 특정 쿼리 문자열이 홈 페이지로 전달되도록 허용할 수 있다면 좋을 것입니다.http://example.com?okparam=true

해결책

그래서 약간의 조사 끝에 제가 찾은 내용은 다음과 같습니다. 주요 검색 제공업체가 수용할 수 있는 솔루션입니다. Google , 야후 & msn (여기에서 유효성 검사기를 찾을 수 있습니다):

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

트릭은 $를 사용하여 URL의 끝을 표시하는 것입니다.

다른 팁

Google의 웹마스터 도구 허용하지 않는 것이 항상 허용보다 우선한다는 보고가 있으므로 이를 수행하는 쉬운 방법은 없습니다. robots.txt 파일.

다음을 입력하면 이 작업을 수행할 수 있습니다. noindex,nofollow META 홈페이지를 제외한 모든 페이지에 HTML 태그를 추가하세요.

기본 robots.txt:

Disallow: /subdir/

'루트를 제외한 모든 것'이라는 표현을 만들 수는 없을 것 같습니다. 모든 하위 디렉터리를 채워야 합니다.

robots.txt에서는 쿼리 문자열 제한도 불가능합니다.백그라운드 코드(처리 부분)에서 수행해야 하거나 서버 재작성 규칙을 사용하여 수행해야 합니다.

Disallow: *
Allow: index.ext

내가 정확하게 기억한다면 두 번째 조항이 첫 번째 조항을 재정의해야 합니다.

내가 아는 한 모든 크롤러가 허용 태그를 지원하는 것은 아닙니다.가능한 해결책 중 하나는 홈 페이지를 제외한 모든 항목을 다른 폴더에 넣고 해당 폴더를 허용하지 않는 것입니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow