검색 엔진은 어디에서 크롤링을 시작합니까?

https://stackoverflow.com/questions/41419

search-engine

09-06-2019
|

문제

검색 엔진 봇은 무엇을 출발점으로 사용합니까?DNS 조회인가요, 아니면 잘 알려진 사이트의 고정 목록으로 시작합니까?추측이나 제안이 있으신가요?

해결책

귀하의 질문은 두 가지 방식으로 해석될 수 있습니다.

검색 엔진이 일반적으로 어디에서 크롤링을 시작하는지, 아니면 특정 사이트를 어디에서 크롤링을 시작하는지 묻고 있습니까?

나는 큰 선수들이 어떻게 일하는지 모른다.하지만 자신만의 검색 엔진을 만들려면 아마도 인기 있는 포털 사이트를 사용하게 될 것입니다. DMOZ.org 인기가 좋은 출발점인 것 같습니다.대형 업체들은 우리보다 훨씬 더 많은 데이터를 보유하고 있기 때문에 아마도 다양한 곳에서 크롤링을 시작할 것입니다.

SE가 특정 사이트를 어디에서 크롤링하기 시작하는지 묻는다면 아마도 어떤 페이지가 가장 인기 있는지와 관련이 있을 것입니다.많은 다른 사이트가 링크되는 매우 인기 있는 페이지가 하나 있다면 다른 사이트의 진입점이 너무 많기 때문에 SE가 시작하는 페이지가 바로 그 페이지일 것이라고 생각합니다.

나는 SEO나 다른 분야에 있지 않습니다.저는 제가 진행하고 있는 프로젝트를 위해 한동안 봇과 SE 트래픽을 연구했습니다.

다른 팁

다음을 사용하여 검색 엔진에 사이트를 제출할 수 있습니다. 사이트 제출 양식 - 이렇게 하면 시스템에 들어갈 수 있습니다.그 이후에 실제로 크롤링되는 경우는 말할 수 없습니다. 경험상 초기 크롤링(홈페이지, 거기에서 1링크 깊이의 다른 페이지 몇 개)은 일반적으로 약 일주일 정도 걸립니다.명확한 의미 링크 구조를 사용하고 사이트맵 - 이를 통해 모든 페이지를 나열하고 서로 상대적으로 가중치를 부여할 수 있습니다. 이는 검색 엔진이 다른 페이지와 비교하여 사이트의 각 부분을 보는 것이 얼마나 중요한지 이해하는 데 도움이 됩니다.

귀하의 사이트가 다른 크롤링된 웹사이트에서 링크된 경우 귀하의 사이트도 링크된 페이지부터 시작하여 결국 사이트의 나머지 부분으로 확산됩니다.이 작업은 시간이 오래 걸릴 수 있으며 연결 사이트의 크롤링 빈도에 따라 달라집니다. 따라서 URL을 제출하는 것이 Google에 귀하에 대해 알릴 수 있는 가장 빠른 방법입니다!

제가 그다지 추천할 수 없는 도구 중 하나는 구글 웹마스터 도구.이를 통해 크롤링 빈도, Googlebot이 발견한 오류(깨진 링크 등) 및 기타 유용한 도구가 많이 포함되어 있는지 확인할 수 있습니다.

원칙적으로 그들은 아무것도 없이 시작합니다.누군가 자신의 웹사이트를 포함하라고 명시적으로 지시한 경우에만 이 사이트를 크롤링하고 해당 사이트의 링크를 사용하여 더 많은 검색을 할 수 있습니다.

그러나 실제로 검색 엔진 작성자는 자신이 생각할 수 있는 임의의 사이트를 삽입할 것입니다.예를 들어 자신의 블로그나 북마크에 있는 사이트 등이 있습니다.

이론적으로는 임의의 주소를 선택하여 거기에 웹사이트가 있는지 확인할 수도 있습니다.하지만 누군가가 이것을 할지는 의심스럽습니다.위의 방법은 잘 작동하며 검색 엔진을 부트스트랩하기 위해 추가 코딩이 필요하지 않습니다.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow