Pergunta

Estou auditar a nossa aplicação web existente, que faz uso pesado de HTML quadros . Eu gostaria de baixar todo o HTML em cada quadro, existe um método de fazer isso com wget ou um pouco de scripting?

Foi útil?

Solução

como um complemento para a resposta de Steve:

Span para qualquer hospedeiro -'- H’

Os ‘-h’ opção ativa spanning hospedeiro, permitindo assim executar recursiva do Wget para visitar qualquer host referenciado por um link. A menos que os critérios de limitação de recursão suficientes profundidade aplicada, esses exércitos estrangeiros normalmente conectar-se a ainda mais hosts, e assim sucessivamente até Wget acaba sugando muito mais dados do que você pretendia.

Limite abrangendo a determinados domínios -'- D’

A opção ‘-D’ permite especificar os domínios que serão seguidos, limitando assim a recursão só para os anfitriões que pertencem a estes domínios. Obviamente, isto faz sentido apenas em conjunção com ‘H’.

Um exemplo típico seria de baixar o conteúdo de ‘www.server.com’, mas permitindo downloads a partir de ‘images.server.com’, etc:.

      wget -rH -Dserver.com http://www.server.com/

Você pode especificar mais de um endereço, separando-os com uma vírgula,

por exemplo. ‘-Ddomain1.com, domain2.com’.

tirada: wget Manual

Outras dicas

wget --recursive --domains=www.mysite.com http://www.mysite.com

O que indica um rastreamento recursiva também deve atravessar em quadros e iframes. Tenha o cuidado de limitar o âmbito da recursão só para o seu web site desde que você provavelmente não quer se arrastar toda a web.

wget tem uma opção -r para torná-lo recursivo, tente wget -r -L1 (no caso da fonte torna difícil de ler: essa última parte é um minúsculas L seguido por um número 1) A parte -L1 diz-lhe para recurse a uma profundidade máxima de 1. jogando Tente com este número para raspar mais.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top