HTML-Scraping in PHP [Duplikat]

https://stackoverflow.com/questions/34120

09-06-2019
|

Frage

Auf diese Frage gibt es hier bereits eine Antwort:

Wie analysiert und verarbeitet man HTML/XML in PHP? 30 Antworten

Ich habe HTML-Scraping in PHP mit regulären Ausdrücken durchgeführt.Das funktioniert, aber das Ergebnis ist heikel und fragil.Hat jemand Pakete verwendet, die eine robustere Lösung bieten?Eine konfigurationsgesteuerte Lösung wäre ideal, aber ich bin nicht wählerisch.

Lösung

Ich würde es empfehlen PHP Einfacher HTML-DOM-Parser nachdem Sie den HTML-Code von der Seite entfernt haben.Es unterstützt ungültiges HTML und bietet eine sehr einfache Möglichkeit, HTML-Elemente zu verarbeiten.

Andere Tipps

Wenn die Seite, die Sie durchsuchen, gültiges X(HT)ML ist, dann gilt Folgendes: Die in PHP integrierten XML-Parser wird tun.

Mit PHP-Bibliotheken zum Scrapen hatte ich keinen großen Erfolg.Wenn Sie jedoch abenteuerlustig sind, können Sie es versuchen simplehtmldom.Ich würde es empfehlen Hprikose für Ruby oder Wunderschöne Suppe für Python, die beides sind exzellent Parser für HTML.

Ich würde auch 'Simple HTML Dom Parser' empfehlen. Es ist eine gute Option, insbesondere wenn Sie mit JQuery- oder JavaScript -Selektoren vertraut sind, dann finden Sie sich zu Hause.

Ich habe in der Vergangenheit sogar darüber gebloggt.

Es hat mir viel Spaß gemacht, damit zu arbeiten htmlSQL, was nicht so sehr eine High-End-Lösung ist, aber wirklich einfach zu handhaben ist.

Wenn ich PHP für das HTML-Scraping verwende, würde ich cURL + Regexp oder cURL + einige DOM-Parser empfehlen, obwohl ich persönlich cURL + Regexp verwende.Wenn Sie einen profunden Geschmack von Regexp haben, ist es manchmal tatsächlich genauer.

Ich habe damit sehr gute Ergebnisse erzielt Einfacher HTML-DOM-Parser auch oben erwähnt.Und dann ist da noch dasordentliche Erweiterung für PHP auch, was auch wirklich gut funktioniert.

Ich musste Curl auf meinem Host 1and1 verwenden.

http://www.quickscrape.com/ ist das, was ich mir mithilfe der Simple DOM-Klasse ausgedacht habe!

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow