다중 프레임 웹사이트 스크랩

https://stackoverflow.com/questions/116810

02-07-2019
|

문제

저는 기존 웹 애플리케이션을 감사하고 있습니다. HTML 프레임.각 프레임의 모든 HTML을 다운로드하고 싶습니다. 이를 수행하는 방법이 있습니까? wget 아니면 약간의 스크립팅?

해결책

Steve의 답변에 추가로 :

모든 호스트로 확장 - '-H'

'-H' 옵션은 호스트 스패닝을 활성화하여 Wget의 재귀 실행이 링크에서 참조하는 모든 호스트를 방문할 수 있도록 합니다.충분한 재귀 제한 기준이 깊이 적용되지 않는 한 이러한 외부 호스트는 일반적으로 더 많은 호스트에 연결되며 Wget이 의도한 것보다 훨씬 더 많은 데이터를 흡수할 때까지 계속됩니다.

특정 도메인으로 범위 제한 - '-D'

'-D' 옵션을 사용하면 따라갈 도메인을 지정할 수 있으므로 해당 도메인에 속한 호스트로만 재귀를 제한할 수 있습니다.분명히 이것은 '-H'와 함께 사용되는 경우에만 의미가 있습니다.

일반적인 예는 'www.server.com'의 콘텐츠를 다운로드하지만 'images.server.com' 등에서의 다운로드는 허용하는 것입니다.

      wget -rH -Dserver.com http://www.server.com/

쉼표로 구분하여 두 개 이상의 주소를 지정할 수 있습니다.

예를 들어'-Ddomain1.com,domain2.com'.

다음에서 가져옴: wget 매뉴얼

다른 팁

wget --recursive --domains=www.mysite.com http://www.mysite.com

이는 재귀 크롤링이 프레임 및 iframe으로도 이동해야 함을 나타냅니다.전체 웹을 크롤링하고 싶지 않을 수도 있으므로 재귀 범위를 웹 사이트로만 제한하도록 주의하세요.

wget에는 재귀적으로 만드는 -r 옵션이 있습니다. 시도해 보세요. wget -r -l1 (글꼴 때문에 읽기 어려운 경우:마지막 부분은 LOWER CASE L과 NUMBER 1입니다.) -L1 부분은 최대 깊이 1으로 재발하도록 지시합니다.더 많은 것을 긁어내려면 이 숫자를 가지고 놀아보세요.

라이센스 : CC-BY-SA ~와 함께 속성

제휴하지 않습니다 StackOverflow