Como você arquivar um site inteiro para visualização offline?

https://stackoverflow.com/questions/538865

22-08-2019
|

Pergunta

estáticos Nós realmente ter queimado / cópias arquivadas dos nossos sites asp.net para os clientes muitas vezes. Temos usado WebZip até agora, mas temos tido problemas intermináveis ??com acidentes, as páginas não sendo re-ligados corretamente baixado, etc.

Nós basicamente precisa de um aplicativo que rastreia e downloads de cópias estáticas de tudo em nosso site asp.net (páginas, imagens, documentos, css, etc) e, em seguida, processa as páginas de download de modo que eles podem ser navegados localmente sem conexão com a internet (se livrar de urls absolutos em links, etc). A prova mais idiota melhor. Este parece ser um comum bonita e processo simples (relativamente) mas eu tentei algumas outras aplicações e foram realmente impressionado

Alguém tem software de arquivamento que recomendaria? Alguém tem um processo muito simples que iria mostrar?

Solução

No Windows, você pode olhar para HTTrack . É muito configurável, permitindo que você defina a velocidade dos downloads. Mas você pode simplesmente apontar para um site e executá-lo também com nenhuma configuração em tudo.

Em minha experiência tem sido uma ferramenta muito boa e funciona bem. Algumas das coisas que eu gosto sobre HTTrack são:

licença Open Source
resume downloads parou
É possível atualizar um arquivo existente
Você pode configurá-lo para ser não-agressivo quando ele baixa para que ele não perca sua largura de banda e a largura de banda do site.

Outras dicas

Você pode usar wget :

wget -m -k -K -E http://url/of/web/site

O Wayback Machine Downloader por hartator é simples e rápido.

Instale via Ruby, em seguida, executar com o domínio desejado e timestamp opcional a partir da Internet Archive .

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

Eu uso caranguejo azul no OSX e WebCopier no Windows.

wget -r -k

... e investigar o resto das opções. Espero que você tenha seguido estas orientações: http://www.w3.org /Protocols/rfc2616/rfc2616-sec9.html que todos os seus recursos são seguros com solicitações GET.

Eu só uso:. wget -m <url>

Se seus clientes estão arquivando para questões de conformidade, você quer garantir que o conteúdo pode ser autenticado. As opções listadas são muito bem para a visualização simples, mas eles não são legalmente admissível. Nesse caso, você está procurando timestamps e assinaturas digitais. Muito mais complicado se você está fazendo isso sozinho. Eu sugiro um serviço como o PageFreezer .

Para usuários OS X, eu encontrei a aplicação SiteSucker encontrada aqui obras bem sem configurar nada, mas quão profunda ela segue links.

Eu tenho usado HTTrack há vários anos. Ele lida com toda a inter-página que liga, etc. muito bem. A minha única reclamação é que eu não encontrei uma boa maneira de mantê-lo limitado a um sub-site muito bem. Por exemplo, se houver uma www.foo.com/steve site que eu quero arquivar, ele provavelmente vai seguir os links para www.foo.com/rowe e arquivar isso também. Caso contrário, é grande. Altamente configurável e confiável.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow