문제

HTML/Links 구조를 지문/확인하는 방법에 대한 귀하의 의견이 무엇인지 알고 싶습니다.

내가 해결하고 싶은 문제는 다음과 같습니다. 지문은 예를 들어 10 개의 다른 사이트, HTML 페이지입니다. 그리고 얼마 후 나는 그것들을 확인할 가능성이 있기를 원합니다. 사이트가 변경된 경우 링크가 변경되고 확인 실패, 기타 비즈 확인 성공이 발생합니다. 내 기본 아이디어는 링크 구조를 어떤 방식으로 분할하고, 어떤 종류의 트리를 수행하여 링크 구조를 분석하는 것입니다. 그 나무에서 어떤 종류의 코드를 생성합니다. 그러나 나는 여전히 브레인 스토밍 단계에 있으며 누군가와 이것을 토론하고 다른 아이디어를 알아야합니다.

따라서 모든 아이디어, 조류 및 제안이 유용 할 것입니다.

도움이 되었습니까?

해결책

해시, 요약 및 지문을 의도하려는 데이터 나 구조가 무엇이든, 많은 웹 사이트의 "외부"에서 다양한 형태의 노이즈를 설명해야합니다.

이러한 소음 또는 임의의 콘텐츠의 예는 다음과 같습니다.

  • 회사 주식 가치 티커
  • 도시의 날씨 조건
  • 여러 페이지에는 바닥 글 또는 헤더 어딘가에 현재 (현재) 날짜 시간이 있습니다.
  • 광고 컨텐츠 (점점 더 많은 것들이 웹 브라우저에서 광고 차단제를 물리 치기 위해 사이트에 토착적으로 보일 수 있습니다)

다른 팁

당신은 항상 사이트의 원시 HTML을 해시하여 비교할 수 있습니다. 사이트는 "마지막 편집 된"날짜를 유지할 수 있다고 생각하지만 항상 업데이트되는지 확실하지 않습니다.

편집 : 내 실수, 이것은 단순히 웹 사이트를 이전 버전과 비교하는 방법이지만 실제로 당신이 의미하는 방식으로 지문은 아닙니다.

그냥 거기에 버리는 것 :

사이트를 기어 다니면서 모든 링크를 사이트의 맵을 나타내는 XML 문서에 넣으십시오.

해당 파일에 MD5 체크섬을 만들고 저장하십시오. 그런 다음 앞으로 언제든지 XML을 다시 만들고, 재창조하고, 체크섬을 다시 만들고, 이전 체크섬과 비교할 수 있습니다.

일치하지 않으면 링크 구조가 변경되었습니다. 반드시 어디에 있는지 알지는 못합니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top