문제

여러 사이트에 여러 사이트에 완전히 반영하고 싶은 웹 페이지가 있습니다. 즉, 이미지, CSS 등이 필요하며 링크를 변환해야합니다. 이 기능은 Firefox를 사용하여 "페이지 저장"및 "웹 페이지를 선택하고 완료"하는 것과 유사합니다. 파일과 해당 디렉토리의 이름을 현명한 것으로 지정하고 싶습니다 (예 : MyFavPage1.html, MyFavPage1.dir).

서버에 액세스 할 수 없으며 내 페이지가 아닙니다. 다음은 하나의 샘플 링크입니다. 클릭 해주세요!

조금 더 설명 ... 나는 미러링하고 싶은 약 100 페이지가 있습니다 (많은 서버에서 많은 사람들), 나는 Solaris 10에서 일을하고 사람들이 볼 수 있도록 Samba 마운트에 매시간 결과를 덤프 할 것입니다. 그리고 그렇습니다. 나는 분명히 몇 가지 다른 깃발로 wget을 시도했지만 내가보고있는 결과를 얻지 못했습니다. 따라서 GNU WGET 페이지를 가리키는 것은 실제로 도움이되지 않습니다. 내가 간단한 예를 가지고있는 곳부터 시작하겠습니다.

 wget --mirror -w 2 -p --html-extension --tries=3 -k -P stackperl.html "https://stackoverflow.com/tags/perl"

이것으로부터 나는 볼 것이다 https://stackoverflow.com/tags/perl 플래그가 올바른 경우 stackper.html 파일의 페이지.

도움이 되었습니까?

해결책

단지 명령을 실행하고 웹 사이트 사본을 받으려면 다른 사람들이 제안한 도구를 사용하여 wget, 곱슬 곱슬하다, 또는 일부 GUI 도구. 나는 내가 전화하는 내 자신의 개인 도구를 사용합니다 웨이프 (그것은 창문이 아닙니다 웨이프 그렇지만. 내가 알고있는 몇 가지 PERL 프로그램이 있습니다. 웹 미러 그리고 당신이 찾을 수있는 다른 몇 가지 CPAN.

당신이 쓰고있는 Perl 프로그램 내 에서이 작업을 수행하려면 (답변에 "Perl"태그가 있기 때문에) 많은 도구가 있습니다. CPAN 각 단계에서 도움이 될 수 있습니다.

행운을 빕니다, :)

다른 팁

귀하의 사이트의 HTML 인조 버전의 경우 무료 오픈 소스 GPL 프로그램 인 Winhttrack을 사용할 수 있습니다. 사전 렌더링 된 버전의 페이지, 그래픽, 문서, Zip 파일, 영화 등을 중단합니다. 물론 데이터베이스 호출과 같은 동적 백엔드 코드는 더 이상 동적이지 않기 때문에 거울로 된 복사이기 때문입니다.

http://www.httrack.com/

개인적으로, 마지막 으로이 작업을 촉구했을 때, 나는 브라우저 캐시의 사본을 만든 파이썬 스크립트를 작성한 다음, 내가 원하는 모든 페이지를 수동으로 방문했습니다. 매우 추악한 솔루션이지만 "내 페이지를 긁어 내지 말아라"는 경보를 유발하지 않는 것이 좋습니다. 감사합니다 오페라'링크 탭 바, "수동으로"수만 페이지를 다운로드하는 것은 생각만큼 어렵지 않았습니다.

나는 "명확하지 않아"댓글을 반향 할 것이다. 이 웹 페이지/사이트를 만든 웹 페이지/사이트는 여러 서버에 배포하고 싶습니까? 그렇다면 HTML에서 상대 참조를 사용하면 괜찮을 것입니다. 또는 A에서 A를 사용하고 각 사이트에서 조정하십시오. 그러나 상대성은 실제로가는 길입니다.

아니면 컴퓨터에 로컬 사본을 갖기 위해 웹 사이트 (스택 오버 플로우 홈페이지 등)를 다운로드하고 싶다고 말합니까? 나는 Daniel과 동의합니다 - WGET 사용.

나는 사용한다 웨이프

WGET GNU 도구를 사용하여 다음과 같은 전체 사이트를 가져올 수 있습니다.

wget -r -p -np -k URL

또는 Perl을 사용하는 경우 다음 모듈을 사용해보십시오.

  • lwp :: 간단합니다

  • www :: 기계화

WGET가 복잡하거나 Linuxbox가없는 경우 항상 WebZip을 사용 할 수 있습니다.

우수한 프록시 서버에서 제공하는 캐싱 기능을 원하는 것 같습니다.

오징어와 같은 것을 보시겠습니까? 할 수 있다고 확신합니다.

이것은 프로그래밍보다 sysadmin 유형 질문에 가깝습니다.

대부분의 현대 웹 사이트에서 프론트 엔드는 이야기의 작은 부분 만 알려줍니다. HTML, CSS 및 JavaScript를 제거하는 도구에 관계없이 서버에 포함 된 핵심 기능이 여전히 누락됩니다.

아니면 당신은 다른 것을 의미했을 수도 있습니다.

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top