Como transformar um site dinâmico em um site estático que pode ser demo'd a partir de um CD?

https://stackoverflow.com/questions/117467

02-07-2019
|

Pergunta

Eu preciso encontrar uma maneira de um rastreamento de aplicações web da nossa empresa e criar um site estático a partir dele que pode ser gravado em um CD e usado por viajar as pessoas de vendas para demonstrar o web site. O armazenamento de dados back-end está espalhada por muitos, muitos sistemas para simplesmente executando o site em uma VM no laptop a venda da pessoa não vai funcionar. E eles não vão ter acesso à internet, enquanto em alguns clientes (sem internet, telefone celular .... primitivo, eu sei).

Alguém tem alguma boas recomendações para crawlers que podem lidar com coisas como limpeza de link, flash, um pouco de ajax, css, etc? Eu sei que as chances são pequenas, mas eu percebi que eu jogaria a questão aqui antes de eu saltar para escrever minha própria ferramenta.

Solução

wget ou curl pode tanto de forma recursiva seguir os links e espelhar um site inteiro, de modo que pode ser uma boa aposta. Você não será capaz de usar peças verdadeiramente interativa do site, como motores de busca, ou qualquer coisa que modifica os dados, thoguh.

É possível a todos para criar serviços de back-end fictícios que podem ser executados a partir de laptops dos pessoal de vendas, que o aplicativo pode interagir com?

Outras dicas

Ao usar um WebCrawler , por exemplo, um destes:

DataparkSearch é um rastreador e motor de busca lançado sob a GNU General Public License.
GNU Wget é uma linha de comando rastreador operado escrito em C e liberado sob a GPL. Ele é normalmente usado para sites de espelho web e FTP.
HTTrack usa um rastreador da Web para criar um espelho de um web site para visualização off-line. Ele é escrito em C e liberado sob a GPL.
ICDL Crawler é um web crawler multi-plataforma escrito em C ++ e destinados para sites de rastreamento com base no site Parse Modelos usando apenas recursos de CPU livres do computador.
JSpider é um motor de aranha web altamente configurável e personalizável liberado sob a GPL.
Larbin por Sebastien Ailleret
Webtools4larbin por Andreas Beder
Methabot é um rastreador teia e a linha de comando utilidade optimizadas velocidades escrita em C e libertado sob uma licença BSD 2-cláusula. Ele possui um sistema de configuração de largura, um sistema de módulos e tem suporte para rastreamento alvo através de sistema de arquivos local, HTTP ou FTP.
Jaeksoft WebSearch é um web crawler e construção indexador sobre o Apache Lucene. Ele é liberado sob a licença GPL v3.
Nutch é um rastreador escrito em Java e liberado sob uma licença Apache. Ele pode ser usado em conjunto com o pacote de indexação de texto Lucene.
Pavuk é uma ferramenta espelho web linha de comando com opcional rastreador X11 GUI e liberado sob a GPL. Tem monte de recursos avançados em comparação com o wget e httrack, por exemplo. expressão regular com base filtrando e regras de criação de arquivo.
WebVac é um rastreador usado pelo Projeto WebBase Stanford.
WebSPHINX (Miller e Bharat, 1998) é composto por uma biblioteca de classe Java que implementa a recuperação página web de multi-threaded e HTML parsing, e uma interface gráfica do usuário para definir os URLs de partida, para extrair os dados baixados e implementar um motor de pesquisa básica baseada em texto.
WIRE - Web Information Retrieval Ambiente [15] é um rastreador web escrito em C ++ e liberado sob a GPL, incluindo várias políticas para agendar os downloads de páginas e um módulo de geração de relatórios e estatísticas sobre as páginas de download por isso tem sido usado para a caracterização web.
LWP :: RobotUA (Langheinrich, 2004) é uma classe Perl para a implementação bem-comportado robôs web paralelas distribuídas sob licença Perl 5 de.
Web Crawler Open source web classe rastreador for .NET (escrito em C #).
Sherlock Holmes Sherlock reúne e índices Holmes dados textuais (arquivos de texto, páginas web, ...), tanto localmente como através da rede. Holmes é patrocinado e comercialmente utilizado pela web Checa portal Centrum. Ele também é usado por Onet.pl.
YaCy, um motor de busca livre distribuído, construído em princípios de redes peer-to-peer (licenciado sob a GPL).
Ruya Ruya é uma fonte aberta e de alto desempenho em largura, com base no nível do rastreador web. Ele é usado para rastrear Inglês e sites japoneses de forma bem-comportado. Ele é liberado sob a GPL e é inteiramente escrito na linguagem Python. A SingleDomainDelayCrawler implementação obedece robots.txt com um atraso de rastreamento.
Universal Informação Crawler rápido desenvolvimento web crawler. Rastreamentos Salva e analisa os dados.
quadro Agent Kernel A Java para a programação, linha, e gerenciamento de armazenamento durante o rastreamento.
Spider notícias, informações sobre a construção de uma aranha em perl.
Arachnode.NET, é uma fonte rastreador Web promíscuo aberto para download, indexação e armazenamento de conteúdo da Internet, incluindo endereços de e-mail, arquivos, links, imagens e páginas da Web. Arachnode.net é escrito em C # usando SQL Server 2005 e é liberado sob a GPL.
dine é um multithreaded Java cliente HTTP / rastreador que pode ser programado em JavaScript liberado sob a LGPL.
Crawljax é um Ajrastreador machado baseia num método que cria dinamicamente um gráfico `estado de fluxo' modelar os vários caminhos de navegação e estados dentro de uma aplicação Ajax. Crawljax é escrito em Java e liberado sob a licença BSD.

Apenas porque ninguém cópia colado um comando trabalhando ... Eu estou tentando ... dez anos depois. : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Ele trabalhou como um encanto para mim.

Você não vai ser capaz de lidar com coisas como solicitações de AJAX sem queimar um servidor web para o CD, que eu entendo que você já disse é impossível.

wget fará o download do site para você (use o parâmetro -r para "recursiva "), mas qualquer conteúdo dinâmico como relatórios e assim por diante, claro, não funcionará corretamente, você só vai ter uma única foto.

Se você fizer acabam por ter de executá-lo fora de um servidor web, você pode querer dar uma olhada em:

ServerToGo

Ele permite que você execute uma pilha WAMPP fora de um CD, com mysql / php / apache apoio. Os de db são copiados para o diretório de usuários temperatura atual no lançamento, e pode ser executado inteiramente sem que o usuário nada de instalar!

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow