HTML Scraping in PHP [дублировать
-
09-06-2019 - |
Вопрос
Этот вопрос уже имеет ответ здесь:
Я делаю какое -то HTML -царапин в PHP, используя регулярные выражения. Это работает, но результат привередливый и хрупкий. Кто -нибудь использовал какие -либо пакеты, которые обеспечивают более надежное решение? Решение, управляемое конфигурацией, было бы идеальным, но я не разборчив.
Решение
Я бы порекомендовал PHP Simple HTML DOM SARSER После того, как вы соскребили HTML со страницы. Он поддерживает недействительный HTML и обеспечивает очень простой способ обработки элементов HTML.
Другие советы
Если страница, которую вы соскребаете, действительна x (ht) ml, то любой из Встроенные анализаторы XML PHP Сделаю.
Я не имел большого успеха в библиотеках PHP для соскоба. Если вы авантюрны, вы можете попробовать Simplehtmldom. Полем Я бы порекомендовал Hpricot для Ruby или Красивый суп для Python, который оба отличный Парсеры для HTML.
Я также рекомендовал бы «простой HTML DOM Parser». Это хороший вариант, особенно если вы знакомы с селекторами jQuery или JavaScript, то вы окажетесь дома.
Мне было весело работать с htmlsql, которое не столько решением высокого класса, но и очень просто для работы.
Используя PHP для соскоба HTML, я бы порекомендовал Curl + REGEXP или Curl + некоторых анализаторов DOM, хотя я лично использую Curl + REGEXP. Если у вас есть глубокий вкус regexp, иногда это на самом деле более точное.
У меня были очень хорошо с результатами с Простой HTML DOM -анализатор упомянуто выше. А потом естьаккуратное расширение для PHP Кроме того, что работает очень хорошо.
Мне пришлось использовать Curl на моем хозяине 1 и1.
http://www.quickscrape.com/ Это то, что я придумал, используя простой класс DOM!