Pregunta

Esta pregunta ya tiene una respuesta aquí:

Yo he estado haciendo algunas HTML raspado en PHP usando expresiones regulares.Esto funciona, pero el resultado es muy delicada y frágil.Alguien ha utilizado alguno de los paquetes que proporcionan una solución más robusta?Una configuración impulsado solución sería ideal, pero no soy exigente.

¿Fue útil?

Solución

Lo recomendaría PHP Simple HTML DOM Parser después de haber raspado el código HTML de la página.Es compatible con HTML no válido, y proporciona una manera muy fácil de manejar elementos HTML.

Otros consejos

Si la página está raspando es válido X(HT)ML, entonces cualquiera de PHP integrado en los analizadores XML va a hacer.

No he tenido mucho éxito con bibliotecas de PHP para raspar.Si eres aventurero, sin embargo, usted puede intentar simplehtmldom.Me gustaría recomendar Hpricot Rubí o La Sopa De Hermosa para Python, que son ambos excelente analizadores de HTML.

También recomiendo " Simple HTML DOM Parser.' Es una buena opción, sobre todo si su familiar con jQuery o JavaScript selectores, entonces usted se encontrará como en casa.

Incluso he blogueado acerca de ello en el pasado.

Yo tenía un poco de diversión de trabajo con htmlSQL, que no es tanto una solución de alta gama, pero muy fácil de trabajar.

El uso de PHP HTML raspado, me gustaría recomendar el cURL + regexp o cURL + algunos DOM analizadores aunque yo personalmente uso cURL + regexp.Si usted tiene un profundo sabor de regexp, en realidad es más preciso a veces.

He tenido muy buenos resultados con el Simple Html DOM Parser mencionados.Y luego está el ordenado de Extensión para PHP así que funciona muy bien también.

Tuve que usar curl en mi host de 1and1.

http://www.quickscrape.com/ es lo que me ocurrió con el uso de la Simple DOM clase!

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top