동적 사이트를 CD에서 데모할 수 있는 정적 사이트로 어떻게 전환합니까?

StackOverflow https://stackoverflow.com/questions/117467

  •  02-07-2019
  •  | 
  •  

문제

나는 우리 회사의 웹 응용 프로그램 중 하나를 크롤링하고 CD에 구워서 여행하는 판매원이 웹 사이트를 시연하는 데 사용할 수 있는 정적 사이트를 만드는 방법을 찾아야 합니다.백엔드 데이터 저장소는 수많은 시스템에 분산되어 있으므로 판매원의 노트북에 있는 VM에서 사이트를 실행하는 것만으로는 작동하지 않습니다.그리고 그들은 일부 클라이언트에 있는 동안 인터넷에 접속할 수 없습니다(인터넷, 휴대폰이 없습니다....기본적인 것입니다).

링크 정리, 플래시, 약간의 Ajax, CSS 등을 처리할 수 있는 크롤러에 대한 좋은 권장 사항이 있는 사람이 있습니까?가능성이 희박하다는 건 알지만, 나만의 도구를 작성하기 전에 먼저 질문을 던져야겠다고 생각했습니다.

도움이 되었습니까?

해결책

wget이나 컬은 모두 재귀적으로 링크를 따라갈 수 있고 전체 사이트를 미러링할 수 있으므로 좋은 선택이 될 수 있습니다.하지만 검색 엔진이나 데이터를 수정하는 모든 것과 같은 사이트의 진정한 대화형 부분을 사용할 수 없습니다.

판매원의 노트북에서 실행할 수 있고 앱이 인터페이스할 수 있는 더미 백엔드 서비스를 만드는 것이 전혀 가능합니까?

다른 팁

사용하여 웹크롤러, 예를 들어다음 중 하나:

  • DataparkSearch는 GNU General Public License에 따라 출시된 크롤러 및 검색 엔진입니다.
  • GNU Wget은 C로 작성되고 GPL로 출시된 명령줄로 작동되는 크롤러입니다.일반적으로 웹 및 FTP 사이트를 미러링하는 데 사용됩니다.
  • HTTrack은 웹 크롤러를 사용하여 오프라인 보기용 웹 사이트 미러를 생성합니다.C로 작성되었으며 GPL로 배포됩니다.
  • ICDL 크롤러는 C++로 작성된 크로스 플랫폼 웹 크롤러이며 컴퓨터의 무료 CPU 리소스만 사용하여 웹사이트 구문 분석 템플릿을 기반으로 웹사이트를 크롤링하도록 고안되었습니다.
  • JSpider는 GPL에 따라 출시된 고도로 구성 및 사용자 정의 가능한 웹 스파이더 엔진입니다.
  • Sebastien Ailleret의 라르빈
  • Andreas Beder의 Webtools4larbin
  • Methabot은 C로 작성되고 2절 BSD 라이선스에 따라 출시되는 속도 최적화된 웹 크롤러 및 명령줄 유틸리티입니다.광범위한 구성 시스템, 모듈 시스템을 갖추고 있으며 로컬 파일 시스템, HTTP 또는 FTP를 통한 대상 크롤링을 지원합니다.
  • Jaeksoft WebSearch는 Apache Lucene을 기반으로 구축된 웹 크롤러 및 인덱서입니다.GPL v3 라이센스에 따라 출시됩니다.
  • Nutch는 Java로 작성되었으며 Apache 라이센스에 따라 출시된 크롤러입니다.Lucene 텍스트 인덱싱 패키지와 함께 사용할 수 있습니다.
  • Pavuk는 X11 GUI 크롤러 옵션이 포함된 명령줄 웹 미러 도구이며 GPL로 출시되었습니다.wget 및 httrack에 비해 많은 고급 기능이 있습니다.정규식 기반 필터링 및 파일 생성 규칙.
  • WebVac은 Stanford WebBase Project에서 사용하는 크롤러입니다.
  • WebSPHINX(Miller and Bharat, 1998)는 멀티 스레드 웹 페이지 검색 및 HTML 구문 분석을 구현하는 Java 클래스 라이브러리와 시작 URL 설정, 다운로드한 데이터 추출 및 기본 텍스트 구현을 위한 그래픽 사용자 인터페이스로 구성됩니다. 기반 검색 엔진.
  • WIRE - Web Information Retrieval Environment [15]는 C++로 작성되고 GPL로 출시된 웹 크롤러로, 페이지 다운로드를 예약하기 위한 여러 정책과 다운로드한 페이지에 대한 보고서 및 통계를 생성하기 위한 모듈을 포함하여 웹 특성화에 사용되었습니다. .
  • LWP::RobotUA(Langheinrich, 2004)는 Perl 5 라이센스에 따라 배포되는 올바르게 동작하는 병렬 웹 로봇을 구현하기 위한 Perl 클래스입니다.
  • 웹 크롤러 .NET용 오픈 소스 웹 크롤러 클래스(C#으로 작성).
  • Sherlock Holmes Sherlock Holmes는 로컬 및 네트워크를 통해 텍스트 데이터(텍스트 파일, 웹 페이지 등)를 수집하고 색인화합니다.Holmes는 체코 웹 포털 Centrum의 후원을 받아 상업적으로 사용됩니다.Onet.pl에서도 사용됩니다.
  • YaCy는 P2P 네트워크 원칙을 기반으로 구축된 무료 분산 검색 엔진입니다(GPL에 따라 라이센스가 부여됨).
  • Ruya Ruya는 오픈 소스, 고성능, 너비 우선, 레벨 기반 웹 크롤러입니다.이는 영어와 일본어 웹사이트를 올바른 방식으로 크롤링하는 데 사용됩니다.이는 GPL에 따라 출시되며 전적으로 Python 언어로 작성되었습니다.SingleDomainDelayCrawler 구현은 크롤링 지연으로 robots.txt를 준수합니다.
  • Universal Information Crawler 빠르게 발전하는 웹 크롤러.크롤링 데이터를 저장하고 분석합니다.
  • 에이전트 커널 크롤링 시 일정, 스레드 및 저장소 관리를 위한 Java 프레임워크입니다.
  • 스파이더 뉴스, 펄에서 스파이더를 만드는 것에 관한 정보.
  • Arachnode.NET은 전자 메일 주소, 파일, 하이퍼링크, 이미지 및 웹 페이지를 포함한 인터넷 콘텐츠를 다운로드, 색인화 및 저장하기 위한 오픈 소스 무차별 웹 크롤러입니다.Arachnode.net은 SQL Server 2005를 사용하여 C#으로 작성되었으며 GPL에 따라 릴리스됩니다.
  • dine은 LGPL에 따라 출시된 JavaScript로 프로그래밍할 수 있는 다중 스레드 Java HTTP 클라이언트/크롤러입니다.
  • Crawljax는 Ajax 애플리케이션 내의 다양한 탐색 경로와 상태를 모델링하는 '상태 흐름 그래프'를 동적으로 작성하는 방법을 기반으로 하는 Ajax 크롤러입니다.Crawljax는 Java로 작성되었으며 BSD 라이센스에 따라 출시됩니다.

아무도 작업 명령을 복사하여 붙여넣지 않았기 때문에 ...나는 노력하고있다 ...10년 후.:디

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

그것은 나에게 매력처럼 작용했습니다.

웹서버를 CD에 굽지 않고는 AJAX 요청과 같은 작업을 처리할 수 없습니다. 이미 불가능하다고 말씀하신 것으로 알고 있습니다.

wget 사이트를 다운로드하지만("재귀"에 -r 매개변수 사용) 보고서 등과 같은 동적 콘텐츠는 제대로 작동하지 않으므로 단일 스냅샷만 얻을 수 있습니다.

결국 웹서버에서 실행해야 한다면 다음을 살펴보세요.

ServerToGo

mysql/php/apache 지원을 통해 CD에서 WAMPP 스택을 실행할 수 있습니다.DB는 시작 시 현재 사용자의 임시 디렉터리에 복사되며 사용자가 아무것도 설치하지 않고도 완전히 실행할 수 있습니다!

라이센스 : CC-BY-SA ~와 함께 속성
제휴하지 않습니다 StackOverflow
scroll top