Question

Cette question a déjà une réponse ici:

J'ai fait quelques HTML de grattage en PHP à l'aide d'expressions régulières.Cela fonctionne, mais le résultat est capricieux et fragile.Quelqu'un a utilisé tous les paquets qui fournissent une solution plus robuste?Une config axée solution serait l'idéal, mais je ne suis pas pointilleux.

Était-ce utile?

La solution

Je conseille PHP Simple HTML DOM Parser après avoir raclé le code HTML de la page.Il prend en charge HTML non valide, et fournit un moyen très facile de manipuler les éléments HTML.

Autres conseils

Si la page vous êtes grattage est valide X(HT)ML, puis l'un des De PHP (parseurs XML va faire.

Je n'ai pas eu beaucoup de succès avec les bibliothèques PHP pour le grattage.Si vous êtes aventureux, vous pouvez essayer simplehtmldom.Je le recommande Hpricot le Rubis ou le Belle Soupe pour Python, qui sont à la fois excellent les parseurs HTML.

Je vous recommande aussi " Simple HTML DOM Parser.' C'est une bonne option, surtout si votre familier avec jQuery ou JavaScript, des sélecteurs, puis vous vous retrouverez à la maison.

J'ai même écrit un billet à ce sujet dans le passé.

J'ai eu un certain plaisir à travailler avec htmlSQL, qui n'est pas tellement une solution haut de gamme, mais vraiment très simple de travailler avec.

Pour utiliser PHP en HTML de grattage, je le recommande cURL + regexp ou cURL + certains DOM analyseurs bien que personnellement, j'utilise cURL + regexp.Si vous avez un profond goût de regexp, c'est effectivement plus précis, parfois.

J'ai eu de très bons résultats avec l' Simple Html DOM Parser mentionnées ci-dessus ainsi.Et puis il y a la bien rangé Extension pour PHP ainsi ce qui fonctionne vraiment bien aussi.

J'ai eu à utiliser curl sur mon hébergeur 1and1.

http://www.quickscrape.com/ est ce que je suis venu avec l'aide de la Simple classe DOM!

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top