누구나 Robots.txt를 구문 분석 할 C# 코드를 가지고 URL을 평가합니다.

StackOverflow https://stackoverflow.com/questions/633479

  •  10-07-2019
  •  | 
  •  

문제

짧은 질문 :

Robots.txt를 구문 분석 한 다음 URL을 평가할 C# 코드가있는 사람이 있으므로 제외되었는지 아닌지 확인하십시오.

긴 질문 :

나는 아직 Google에 출시되지 않은 새 사이트를위한 사이트 맵을 만들고 있습니다. 사이트 맵에는 기존 사이트 맵과 같은 사용자 모드와 '관리자'모드의 두 가지 모드가 있습니다.

관리 모드는 사이트에 가능한 모든 URL을 표시합니다 (예 : 특정 외부 파트너에 대한 사용자 정의 입력 URL 또는 URL을 포함하여 example.com/oprah Oprah에서 우리 사이트를 본 사람. Excel 스프레드 시트가 아닌 어딘가에 게시 된 링크를 추적하고 싶습니다.

나는 누군가가 /oprah 블로그 또는 어딘가에 링크. 우리는 실제로이 '미니-프라 사이트'가 인덱싱되기를 원하지 않습니다. 비 로라 시청자가 특별한 오프라 제안을 찾을 수 있기 때문입니다.

그래서 동시에 사이트 맵을 만들었습니다. 또한 다음과 같은 URL도 추가했습니다. /oprah 우리에게서 제외됩니다 robots.txt 파일.

그 다음에 (그리고 이것은 실제 질문입니다) 나는 '파일이 로봇에 인덱스되고 보이는지 여부에 관계없이 사이트 맵에 표시 할 수 없을 것이라고 생각했습니다. 이것은 매우 간단합니다 - 로봇을 구문 분석 한 다음 그것에 대한 링크를 평가합니다.

그러나 이것은 '보너스 기능'이며, 나는 확실히 꺼져서 그것을 쓸 시간이 없습니다 (아마도 복잡하지 않았을 수도 있습니다) - 그래서 누군가가 이미 Robots.txt에 코드를 작성했는지 궁금했습니다.

도움이 되었습니까?

해결책

그 말을 싫어하지만 Google "C# robots.txt Parser"만으로 첫 번째 적중을 클릭하십시오. 그것은 a입니다 "SearchAroo"라는 C#에서 구현 된 간단한 검색 엔진에 대한 CodeProject 기사, 그리고 그것은 class searcharoo.indexer.robotstxt를 포함합니다.

  1. 사이트에서 Robots.txt 파일을 확인하고 다운로드하여 구문 분석하는 경우
  2. Spider가 robots.txt 규칙에 대해 각 URL을 확인할 수있는 인터페이스를 제공합니다.

다른 팁

나는 코드와 테스트를 좋아합니다 http://code.google.com/p/robotstxt/ 출발점으로 추천합니다.

약간의 자기 홍보이지만 비슷한 파서가 필요하고 내가 행복한 것을 찾을 수 없었기 때문에 내 자신을 만들었습니다.

http://nrobots.codeplex.com/

나는 어떤 피드백도 좋아합니다

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top