Существует ли серверный двигатель DOM DOM, подходящий для ползания?

StackOverflow https://stackoverflow.com/questions/3892632

Вопрос

Я нашел проект, Джаксер которые встраивают JavaScript JavaScript Firefox на стороне сервера, поэтому он может очень хорошо продумать HTML-серверную сторону. Но этот проект кажется мертвым. Это действительно полезно для ползания веб-страниц для анализа данных HTML & Extract.

Есть ли какая -то новая технология для извлечения информации?

Это было полезно?

Решение

То, что я делал в прошлом, используется Селен RC. Чтобы управлять веб-браузером (обычно Firefox) от кода для нагрузки и веб-сайтов разбора, используя реальный веб-браузер.

Прохладная вещь в этом заключается в том, что вы в основном кодируете на языке, которого вам удобно, будь то Perl или Ruby или C #. Но чтобы полностью использовать силу Селен Вам все еще нужно знать и писать JavaScript.

Другие советы

Еще один интересный способ сделать это - использовать node.js. в сочетании с jsdom. и Node-HtmlParser Чтобы загрузить страницу и проанализировать JavaScript в ней. На самом деле это еще не сработает из коробки, но Dav Glass (от Yahoo) Успех работает YUI в Node.js Использование модифицированной версии этого комбо.

Это интересно, если вы решите, что ничего не достаточно хорошего, и вы хотите реализовать свои собственные. Если это так, это сделает отличный проект с открытым исходным кодом.

У меня был какой-то успех, написав гусенику с поддержкой JS в Python + Pywebkitgtk + JavaScript. Это намного медленнее, чем традиционный гусеничный, но он получает работу, и может проделать прохладные вещи, как сделать скриншоты и забрать контент, который был «скрытым» инъекцией JS.

Здесь есть приличная статья с примерным примером:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-from-python/

Находчивый Аналогичен дьяксером, главное отличие находится на основе Java, а не JavaScript.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top