웹 사이트에 액세스하는 사용자가 봇이 아닌지 확인하는 방법은 무엇입니까?

StackOverflow https://stackoverflow.com/questions/1342914

  •  20-09-2019
  •  | 
  •  

문제

사용자 에이전트가 하나의 지표라는 것을 알고 있지만 스푸핑하기 쉽습니다. 방문자가 실제로 봇이라는 다른 신뢰할 수있는 지표는 무엇입니까? 일관되지 않은 헤더? 이미지/JavaScript가 요청되는지 여부? 감사!

도움이 되었습니까?

해결책

CVStrac을 사용합니다 꿀단지 이것을 달성하기위한 페이지. 크롤러가 도달하는 사이트 어딘가에 링크 된 페이지이지만, 인간은 일반적으로 그것을 무시합니다. CVStrac은 사용자가 자신이 인간임을 증명할 수있게함으로써 한 걸음 더 나아갑니다.

다른 팁

"이미지/JavaScript가 요청되었는지 여부?" 나는 이것을 위해 갈 것이지만, Google과 다른 사람들은 요즘 이미지와 JavaScript 파일을 요청합니다.

요청 시간 속도는 어떻습니까? 봇은 인간보다 콘텐츠를 훨씬 빨리 읽습니다.

우리가 찾는 4 가지가 있습니다.

  • 사용자 에이전트 문자열. 가짜는 매우 쉽지만 종종 크롤러는 고유 한 사용자 에이전트 문자열을 사용합니다.

  • 페이지 액세스 속도, 반 초마다 1 개 이상 액세스하는 경우 일반적으로 좋은 표시입니다.

  • HTML 만 요청하거나 전체 페이지를 요청하는 경우. 일부 크롤러는 HTML 구조 만 요구합니다. 이것은 일반적으로 좋은 팁입니다.

  • 들어오는 URL

일종의 역 담프 캡처도 도움이 될 수 있습니다. 디스플레이를 사용하여 텍스트 입력 필드를 만들 수 있습니다. 없음; 스타일 속성 (또는 스타일 시트)에서. 그것이 게시되면 봇을 다룰 가능성이 있습니다.

편집하다: 이것은 실제로 RSS 리더에서 집계 된 것이 었습니다. 소스를 찾을 수 있다면 좋은 예를 연결하겠습니다.

보세요 나쁜 행동, 다양한 봇 감지 기술을 사용하는 라이브러리

그게 아니야 CARTCHA 발명 되었습니까?

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top