Pergunta
Estou auditar a nossa aplicação web existente, que faz uso pesado de HTML quadros . Eu gostaria de baixar todo o HTML em cada quadro, existe um método de fazer isso com wget ou um pouco de scripting?
Solução
como um complemento para a resposta de Steve:
Span para qualquer hospedeiro -'- H’
Os ‘-h’ opção ativa spanning hospedeiro, permitindo assim executar recursiva do Wget para visitar qualquer host referenciado por um link. A menos que os critérios de limitação de recursão suficientes profundidade aplicada, esses exércitos estrangeiros normalmente conectar-se a ainda mais hosts, e assim sucessivamente até Wget acaba sugando muito mais dados do que você pretendia.
Limite abrangendo a determinados domínios -'- D’
A opção ‘-D’ permite especificar os domínios que serão seguidos, limitando assim a recursão só para os anfitriões que pertencem a estes domínios. Obviamente, isto faz sentido apenas em conjunção com ‘H’.
Um exemplo típico seria de baixar o conteúdo de ‘www.server.com’, mas permitindo downloads a partir de ‘images.server.com’, etc:.
wget -rH -Dserver.com http://www.server.com/
Você pode especificar mais de um endereço, separando-os com uma vírgula,
por exemplo. ‘-Ddomain1.com, domain2.com’.
tirada: wget Manual
Outras dicas
wget --recursive --domains=www.mysite.com http://www.mysite.com
O que indica um rastreamento recursiva também deve atravessar em quadros e iframes. Tenha o cuidado de limitar o âmbito da recursão só para o seu web site desde que você provavelmente não quer se arrastar toda a web.
wget tem uma opção -r para torná-lo recursivo, tente wget -r -L1 (no caso da fonte torna difícil de ler: essa última parte é um minúsculas L seguido por um número 1) A parte -L1 diz-lhe para recurse a uma profundidade máxima de 1. jogando Tente com este número para raspar mais.