모든 웹 사이트 활동을 추적하고 웹 로봇 데이터 필터링 방법

https://stackoverflow.com/questions/1285749

18-09-2019
|

문제

나는 URL, 추천 코드, 세션, 시간 등을 로그인하여 페이지보기를 매우 기초적으로 추적하고 있지만 로봇 (Google, Yahoo 등)으로 폭격을 당하고 있음을 발견했습니다. 이 통계를 필터링하거나 기록하지 않는 효과적인 방법이 궁금합니다.

로봇 IP 목록 등을 실험했지만 이것은 완벽하지 않습니다.

로봇, htaccess, php server-side code, javaScript 또는 비인간 상호 작용을 "트위"하거나 무시할 수있는 다른 방법이 있습니까?

해결책

추가하기 만하면 인터페이스 내에 사용할 수있는 기술은 JavaScript를 사용하여 특정 사용자 상호 작용보기/카운터 증분으로 이어지는 작업을 캡슐화하는 것입니다. 매우 기본적인 예를 위해 로봇은 다음과 같습니다.

<a href="javascript:viewItem(4)">Chicken Farms</a>

function viewItem(id)
{
    window.location.href = 'www.example.com/items?id=' + id + '&from=userclick';
}

이러한 클릭을 쉽게 추적 할 수 있도록하려면 다음과 같은 요청을 할 수 있습니다.

www.example.com/items?id=4&from=userclick

그것은 무언가가 '클릭 한'횟수를 안정적으로 추적하는 데 도움이되지만 명백한 단점이 있으며 물론 실제로 달성하려는 것에 달려 있습니다.

다른 팁

그것은 당신이 무엇을 달성 해야하는지에 달려 있습니다. 검색 봇이 특정 경로/페이지 방문을 중지하려면 robots.txt에 포함시킬 수 있습니다. 웰빙 봇의 대부분은 그들을 때리는 봇을 멈출 것입니다.

봇이 이러한 경로를 색인화하려는 경우 보고서에서보고 싶지 않다면 필터링 로직을 구현해야합니다. 예를 들어 모든 주요 봇에는 매우 명확한 사용자 에이전트 문자열이 있습니다 (예 : GoogleBot/2.1). 이 문자열을 사용하여보고 에서이 히트를 필터링 할 수 있습니다.

로봇은 모두 특정 사용자 에이전트를 사용하므로 해당 요청을 무시할 수 있습니다.

또한 Robots.txt를 사용하고 방문을 거부하는 경우; 글쎄, 그게 효과가있을 것입니다.

weel을 redescover하지 마십시오!

현재의 통계 도구는 로봇 요청을 필터링합니다. 공유 호스팅이 있더라도 AWSTATS (오픈 소스)를 설치할 수 있습니다. 서버에 소프트웨어를 설치하지 않으면 Google 웹 로그 분석을 사용하여 페이지 끝에 스크립트 만 추가 할 수 있습니다. 두 솔루션 모두 매우 좋습니다. 이런 식으로 오류 만 기록하면됩니다 (500, 404 및 403로 충분합니다).

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow