Domanda

Questa domanda ha già una risposta qui:

Ho eseguito alcuni scraping HTML in PHP utilizzando le espressioni regolari.Funziona, ma il risultato è complicato e fragile.Qualcuno ha utilizzato pacchetti che forniscono una soluzione più solida?Una soluzione basata sulla configurazione sarebbe l'ideale, ma non sono schizzinoso.

È stato utile?

Soluzione

Lo consiglierei Parser DOM HTML semplice PHP dopo aver cancellato l'HTML dalla pagina.Supporta HTML non valido e fornisce un modo molto semplice per gestire gli elementi HTML.

Altri suggerimenti

Se la pagina che stai eseguendo lo scraping è X(HT)ML valido, allora any of Parser XML integrati di PHP andrà bene.

Non ho avuto molto successo con le librerie PHP per lo scraping.Se sei avventuroso, però, puoi provare simplehtmldom.Lo consiglierei Albicocca per Ruby o Bella zuppa per Python, che sono entrambi eccellente parser per HTML.

Consiglierei anche "Simple HTML Dom Parser". È una buona opzione, in particolare se hai familiarità con i selettori jQuery o JavaScript, ti ritroverai a casa.

Ne ho parlato anche nel blog in passato.

Mi sono divertito a lavorare con htmlSQL, che non è tanto una soluzione di fascia alta, ma davvero semplice da utilizzare.

Utilizzando PHP per lo scraping HTML, consiglierei cURL + regexp o cURL + alcuni parser DOM anche se personalmente utilizzo cURL + regexp.Se hai un gusto profondo dell'espressione regolare, a volte è in realtà più accurata.

Mi sono trovato molto bene con i risultati con Parser DOM HTML semplice anche menzionato sopra.E poi c'è ilordinata estensione per PHP e funziona davvero bene.

Ho dovuto usare curl sul mio host 1and1.

http://www.quickscrape.com/ è quello che mi è venuto in mente usando la classe Simple DOM!

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top