是否有适合爬行的服务器端DOM引擎?
-
28-09-2019 - |
题
我找到了一个项目, Jaxer 它将Firefox的JavaScript引擎嵌入服务器端,因此可以很好地解析HTML服务器端。但是,这个项目似乎已经死了。这对于爬网页解析HTML和提取数据确实很有帮助。
是否有一些新技术可用于提取信息?
其他提示
另一种有趣的方法是使用 node.js 和这个结合 jsdom 和 节点-HTMLPARSER 加载页面并在其中解析JavaScript。目前还没有真正开箱即用,但是Dav Glass(来自Yahoo)已经 成功在node.js中运行yui 使用此组合的修改版本。
如果您认为没有足够好的并且想要实施自己的东西,这很有趣。如果是这样,它将成为一个出色的开源项目。
我在Python + Pywebkitgtk + JavaScript中写下了一个启用JS的爬行者。它比传统的轨道慢得多,但是它可以完成工作,并且可以做一些很酷的事情,例如制作屏幕截图和拾取JS注射“遮盖”的内容。
这里有一篇不错的文章,这里有一些示例代码:
http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-javascript-from-python/
itnat 与Jaxer相似,主要区别是基于Java,而不是JavaScript。
不隶属于 StackOverflow