Вопрос

Этот вопрос уже имеет ответ здесь:

Я делаю какое -то HTML -царапин в PHP, используя регулярные выражения. Это работает, но результат привередливый и хрупкий. Кто -нибудь использовал какие -либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не разборчив.

Это было полезно?

Решение

Я бы порекомендовал PHP Simple HTML DOM SARSER После того, как вы соскребили HTML со страницы. Он поддерживает недействительный HTML и обеспечивает очень простой способ обработки элементов HTML.

Другие советы

Если страница, которую вы соскребаете, действительна x (ht) ml, то любой из Встроенные анализаторы XML PHP Сделаю.

Я не имел большого успеха в библиотеках PHP для соскоба. Если вы авантюрны, вы можете попробовать Simplehtmldom. Полем Я бы порекомендовал Hpricot для Ruby или Красивый суп для Python, который оба отличный Парсеры для HTML.

Я также рекомендовал бы «простой HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с селекторами jQuery или JavaScript, то вы окажетесь дома.

Я даже писал об этом в прошлом.

Мне было весело работать с htmlsql, которое не столько решением высокого класса, но и очень просто для работы.

Используя PHP для соскоба HTML, я бы порекомендовал Curl + REGEXP или Curl + некоторых анализаторов DOM, хотя я лично использую Curl + REGEXP. Если у вас есть глубокий вкус regexp, иногда это на самом деле более точное.

У меня были очень хорошо с результатами с Простой HTML DOM -анализатор упомянуто выше. А потом естьаккуратное расширение для PHP Кроме того, что работает очень хорошо.

Мне пришлось использовать Curl на моем хозяине 1 и1.

http://www.quickscrape.com/ Это то, что я придумал, используя простой класс DOM!

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top