웹 사이트에 액세스하는 사용자가 봇이 아닌지 확인하는 방법은 무엇입니까?
-
20-09-2019 - |
문제
사용자 에이전트가 하나의 지표라는 것을 알고 있지만 스푸핑하기 쉽습니다. 방문자가 실제로 봇이라는 다른 신뢰할 수있는 지표는 무엇입니까? 일관되지 않은 헤더? 이미지/JavaScript가 요청되는지 여부? 감사!
해결책
CVStrac을 사용합니다 꿀단지 이것을 달성하기위한 페이지. 크롤러가 도달하는 사이트 어딘가에 링크 된 페이지이지만, 인간은 일반적으로 그것을 무시합니다. CVStrac은 사용자가 자신이 인간임을 증명할 수있게함으로써 한 걸음 더 나아갑니다.
다른 팁
"이미지/JavaScript가 요청되었는지 여부?" 나는 이것을 위해 갈 것이지만, Google과 다른 사람들은 요즘 이미지와 JavaScript 파일을 요청합니다.
요청 시간 속도는 어떻습니까? 봇은 인간보다 콘텐츠를 훨씬 빨리 읽습니다.
우리가 찾는 4 가지가 있습니다.
사용자 에이전트 문자열. 가짜는 매우 쉽지만 종종 크롤러는 고유 한 사용자 에이전트 문자열을 사용합니다.
페이지 액세스 속도, 반 초마다 1 개 이상 액세스하는 경우 일반적으로 좋은 표시입니다.
HTML 만 요청하거나 전체 페이지를 요청하는 경우. 일부 크롤러는 HTML 구조 만 요구합니다. 이것은 일반적으로 좋은 팁입니다.
들어오는 URL
일종의 역 담프 캡처도 도움이 될 수 있습니다. 디스플레이를 사용하여 텍스트 입력 필드를 만들 수 있습니다. 없음; 스타일 속성 (또는 스타일 시트)에서. 그것이 게시되면 봇을 다룰 가능성이 있습니다.
편집하다: 이것은 실제로 RSS 리더에서 집계 된 것이 었습니다. 소스를 찾을 수 있다면 좋은 예를 연결하겠습니다.
보세요 나쁜 행동, 다양한 봇 감지 기술을 사용하는 라이브러리
그게 아니야 CARTCHA 발명 되었습니까?