是否有适合爬行的服务器端DOM引擎？

题

我找到了一个项目， Jaxer 它将Firefox的JavaScript引擎嵌入服务器端，因此可以很好地解析HTML服务器端。但是，这个项目似乎已经死了。这对于爬网页解析HTML和提取数据确实很有帮助。

是否有一些新技术可用于提取信息？

解决方案

我过去所做的就是使用硒RC 使用真实的Web浏览器控制从代码到加载和解析网站的Web浏览器（通常是Firefox）。

这很酷的事情是，您主要是用您对perl，Ruby或C＃的语言进行编码。但是要充分利用硒您仍然需要知道和写JavaScript。

其他提示

另一种有趣的方法是使用 node.js 和这个结合 jsdom 和节点-HTMLPARSER 加载页面并在其中解析JavaScript。目前还没有真正开箱即用，但是Dav Glass（来自Yahoo）已经成功在node.js中运行yui 使用此组合的修改版本。

如果您认为没有足够好的并且想要实施自己的东西，这很有趣。如果是这样，它将成为一个出色的开源项目。

我在Python + Pywebkitgtk + JavaScript中写下了一个启用JS的爬行者。它比传统的轨道慢得多，但是它可以完成工作，并且可以做一些很酷的事情，例如制作屏幕截图和拾取JS注射“遮盖”的内容。

这里有一篇不错的文章，这里有一些示例代码：

itnat 与Jaxer相似，主要区别是基于Java，而不是JavaScript。

许可以下： CC-BY-SA 和归因