문제

트래커에서 봇이 내 사이트를 많이 방문하고 있다는 사실을 알았습니다. Robots.txt를 변경하거나 편집해야합니까? 그들이 좋은지 확실하지 않습니다. 왜냐하면 그들이 색인이기 때문에 무엇입니까?

도움이 되었습니까?

해결책

Robots.txt를 변경하거나 편집해야합니까?

봇에 따라 다릅니다. 일부 봇은 Robots.txt를 정중하게 무시합니다. 고객이 SOOOO 많은 광고를 구매하고 있었기 때문에 18 개월 전 Google AD Bot과 비슷한 문제가있었습니다. Google 광고 봇은 (문서화 된대로) 와일드 카드 (*) 제외를 무시하지만 명시 적으로 무시하는 것을 듣습니다.

Robots.txt를 존중하는 봇은 사이트를 크롤링하지 않을 것입니다. 인덱싱을 위해 데이터에 액세스하기를 원한다면 바람직하지 않습니다.

더 나은 솔루션은 봇에 정적 함량을 스로틀하거나 공급하는 것입니다.

그들이 좋은지 확실하지 않습니다. 왜냐하면 그들이 색인이기 때문에 무엇입니까?

그들은 색인화/스크래핑/도둑질 일 수 있습니다. 모두 똑같습니다. 내가 원하는 것은 사용자 기관을 기반으로 HTTP 요청 처리를 스로틀하는 것입니다. 이를 수행하는 방법은 웹 서버 및 앱 컨테이너에 따라 다릅니다.

다른 답변에서 제안한 바와 같이, 봇이 악의적이라면, 사용자 원자 패턴을 찾아 403 개의 금지인을 보내야합니다. 또는 악의적 인 봇이 동적으로 사용자 에이전트 문자열을 변경하면 두 가지 추가 옵션이 있습니다.

  • White -List UserAgents- 예를 들어 특정 사용자 에이전트 만 허용하는 사용자 에이전트 필터를 만듭니다. 이것은 매우 불완전합니다.
  • IP 금지 - HTTP 헤더에는 소스 IP가 포함됩니다. 또는 DOS'D (서비스 거부 공격)를 받고 있다면 더 큰 문제가 있습니다.

다른 팁

나는 좋은 봇만이 그것을 준수하기 때문에 robots.txt가 도움이 될 것이라고 생각하지 않습니다. 다른 모든 것은 그것을 무시하고 원하는대로 당신의 콘텐츠를 구문 분석합니다. 개인적으로 나는 사용합니다 http://www.codeplex.com/urlrewriter 발견 된 경우 금지 된 메시지로 응답하여 바람직하지 않은 로봇을 제거합니다.

스팸 봇은 robots.txt를 신경 쓰지 않습니다. 당신은 같은 것을 차단할 수 있습니다 mod_security (자체적으로 꽤 멋진 아파치 플러그인입니다). 아니면 그냥 무시할 수 있습니다.

통나무로 나사로 봇을 거부하려면 .htaccess를 사용해야 할 수도 있습니다. 여기를 봐 : http://spamhuntress.com/2006/02/13/anotherhungry-java-bot/

내 사이트를 크롤링하는 자바 봇이 많이 있었고 추가했습니다.

setenvifnocase user-agent ^java/1. javabot = 예
setenvifnocase user-agent ^java1. javabot = 예
Env = javabot에서 거부합니다

그들을 멈추게했다. 이제 그들은 한 번만 403을 얻습니다.

나는 한때 여러 "가격 비교"봇이 항상 사이트에 부딪친 고객을 위해 일했습니다. 문제는 우리의 백엔드 리소스가 부족하고 거래 당 비용이 부족하다는 것입니다.

한동안 이들 중 일부와 싸우려고 시도한 후에는 봇은 인식 가능한 특성을 계속 바꾸었다. 우리는 다음과 같은 전략으로 끝났습니다.

서버의 각 세션에 대해 사용자가 어느 시점에서 너무 빨리 클릭했는지 여부를 결정했습니다. 주어진 수의 반복 후, 우리는 "isrobot"플래그를 true로 설정하고 수면을 추가하여 해당 세션 내의 응답 속도를 단순히 스로틀로 설정했습니다. 우리는 그 경우에 새로운 세션을 시작했기 때문에 사용자에게 어떤 식 으로든 말하지 않았습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top