Pergunta

Esta pergunta já tem uma resposta aqui:

Eu tenho feito um pouco de HTML raspagem em PHP usando expressões regulares.Isso funciona, mas o resultado é mimado e frágil.Alguém já usou todos os pacotes que fornecem uma solução mais robusta?Uma configuração orientado a solução seria o ideal, mas eu não sou exigente.

Foi útil?

Solução

Eu recomendaria PHP HTML Simples Parser DOM depois de ter raspado o HTML da página.Ele suporta HTML inválido, e fornece uma maneira muito fácil de manipular elementos HTML.

Outras dicas

Se a página que você está raspando é válida X(HT)ML, em seguida, qualquer um dos PHP embutido em analisadores de XML vai fazer.

Eu não tive muito sucesso com bibliotecas PHP para raspar.Se você é aventureiro, porém, você pode tentar simplehtmldom.Eu recomendo Hpricot para Ruby ou Bela Sopa para Python, que são tanto excelente analisadores para HTML.

Eu também recomendaria Simples de HTML Parser DOM.' É uma boa opção, especialmente se o seu familiarizado com o jQuery ou JavaScript seletores, em seguida, você vai encontrar-se em casa.

Eu até escrevi sobre isso no passado.

Eu tinha um pouco de diversão de trabalho com htmlSQL, que não é tanto uma solução topo de linha, mas realmente simples de se trabalhar.

Utilizando PHP, HTML, raspagem, eu recomendo cURL + regexp ou cURL + algum DOM analisadores embora eu, pessoalmente, uso cURL + regexp.Se você tem um profundo gosto de regexp, na verdade é mais preciso, por vezes,.

Eu tive muito bons resultados com o Simples Html Parser DOM acima mencionada bem.E depois há o arrumado Extensão para PHP assim que funciona muito bem também.

Eu tive que usar o curl no meu host 1and1.

http://www.quickscrape.com/ é o que eu consegui usando o Simples DOM de classe!

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top