동적 robots.txt

https://stackoverflow.com/questions/43971

09-06-2019
|

문제

매우 특정한 사용자 집합을 대상으로 커뮤니티 생성 콘텐츠를 호스팅하기 위한 웹 사이트가 있다고 가정해 보겠습니다.이제 더 나은 커뮤니티를 조성하기 위해 사이트의 기본 주제에 관계없이 커뮤니티 회원이 원하는 무엇이든 게시하거나 이야기할 수 있는 주제에서 벗어난 영역을 가지고 있다고 가정해 보겠습니다.

지금 원하다 대부분의 콘텐츠는 Google에서 색인을 생성합니다.주목할만한 예외는 주제에서 벗어난 콘텐츠입니다.각 스레드에는 자체 페이지가 있지만 모든 스레드는 동일한 폴더에 나열되므로 폴더 어딘가에서 검색 엔진을 제외할 수는 없습니다.페이지별로 이루어져야 합니다.기존의 robots.txt 파일은 용량이 커지는데 어떻게 이 작업을 수행할 수 있습니까?

해결책

이는 정상적으로 작동하는 모든 검색 엔진에 적용됩니다. <head>:

<meta name="robots" content="noindex, nofollow" />

다른 팁

Apache를 사용하는 경우 mod-rewrite를 사용하여 필요한 콘텐츠를 동적으로 생성할 수 있는 스크립트에 robots.txt의 별칭을 지정합니다.

편집하다:IIS를 사용하는 경우 다음을 사용할 수 있습니다. ISAPI다시 쓰기 같은 일을하기 위해.

@James Marshall의 제안과 마찬가지로 ASP.NET에서는 HttpHandler를 사용하여 robots.txt에 대한 호출을 콘텐츠를 생성한 스크립트로 리디렉션할 수 있습니다.

robots.txt를 출력을 생성하는 동적 스크립트로 대체하여 구현할 수 있습니다.Apache를 사용하면 이를 달성하기 위해 간단한 .htaccess 규칙을 만들 수 있습니다.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

해당 스레드에 대해서만 머리에 noindex 메타 태그가 포함되어 있는지 확인하십시오.이는 robots.txt에서 차단하는 것 외에 검색 엔진이 페이지를 크롤링하지 않도록 지시하는 또 다른 방법입니다.

robots.txt를 허용하지 않아도 Google이 외부 사이트의 링크가 있는 페이지의 색인을 생성하는 것을 방지할 수는 없으며, 내부적으로 크롤링을 방지하는 것뿐입니다.보다 http://www.webmasterworld.com/google/4490125.htm 또는 http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

로봇 메타 태그를 제한하여 검색 엔진이 콘텐츠를 읽거나 색인화하는 것을 허용하지 않을 수 있습니다.이러한 방식으로 스파이더는 귀하의 지시를 고려하여 귀하가 원하는 페이지만 색인을 생성합니다.

robots.txt로 동적 웹페이지를 차단하려면 이 코드를 사용하세요.

사용자 에이전트:*

허용하지 않음:/setnewsrefs?

허용하지 않음:/index.html?

허용하지 않음:/?

허용하다:/?hl=

허용하지 않음:/?hl=*&

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow