我找到了一个项目, Jaxer 它将Firefox的JavaScript引擎嵌入服务器端,因此可以很好地解析HTML服务器端。但是,这个项目似乎已经死了。这对于爬网页解析HTML和提取数据确实很有帮助。

是否有一些新技术可用于提取信息?

有帮助吗?

解决方案

我过去所做的就是使用 硒RC 使用真实的Web浏览器控制从代码到加载和解析网站的Web浏览器(通常是Firefox)。

这很酷的事情是,您主要是用您对perl,Ruby或C#的语言进行编码。但是要充分利用 您仍然需要知道和写JavaScript。

其他提示

另一种有趣的方法是使用 node.js 和这个结合 jsdom节点-HTMLPARSER 加载页面并在其中解析JavaScript。目前还没有真正开箱即用,但是Dav Glass(来自Yahoo)已经 成功在node.js中运行yui 使用此组合的修改版本。

如果您认为没有足够好的并且想要实施自己的东西,这很有趣。如果是这样,它将成为一个出色的开源项目。

我在Python + Pywebkitgtk + JavaScript中写下了一个启用JS的爬行者。它比传统的轨道慢得多,但是它可以完成工作,并且可以做一些很酷的事情,例如制作屏幕截图和拾取JS注射“遮盖”的内容。

这里有一篇不错的文章,这里有一些示例代码:

http://blog.motane.lu/2009/06/18/pywebkitgtk-execute-javascript-javascript-from-python/

itnat 与Jaxer相似,主要区别是基于Java,而不是JavaScript。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top