我的代码了很多的分析程序.直到现在,我用的是HtmlUnit无头的浏览器分析和浏览器自动化。

现在,我想要两个单独的任务。

因为80%的我的工作只涉及分析,我想用一个光HTML分析器,因为它需要很多时间在HtmlUnit来第一个负载一个网页,然后获得的来源,然后分析。

我想知道这HTML分析器是最好的。分析器会更好,如果它靠近HtmlUnit分析器。


编辑:

通过最好的,我想至少有以下特点:

  1. 速度
  2. 轻松找到任何他通过其"id"或"名称"或者"标签类型"。

这将是确定对我来说,如果它不干净脏HTML代码。我不需要清理的任何HTML源。我只是需要一个最简单的方式移动横跨HtmlElements和收获的数据。

有帮助吗?

解决方案

自插件:我刚刚发布了一个新的Java HTML分析器: jsoup.我提到它在这里因为我认为它会做什么你是之后。

其缔约方的伎俩是一CSS选择的语法找到元素,例如:

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

看看 选择 如果是的话,为什么不试用更多的信息。

这是一个新的项目,因此,任何想法,为改善是非常受欢迎的!

其他提示

我见过的最好到此为止 HtmlCleaner:

HtmlCleaner是开放源代码HTML析编写的。HTML上发现的网络通常是肮脏、虐待形成的,并不适合于进一步处理。对任何严重的消耗量的这类文件,它必须首先收拾残局,并把以标签、属性和普通的文本。为给HTML文档,HtmlCleaner重新排序的各个元素和产生良好的XML。通过默认,它遵循类似的规则,大多数的网络浏览器的使用,以便创建文件的目的模式。但是,用户可以提供定义的标签和规则设置的标签的过滤和平衡。

与HtmlCleaner你可以找到的任何元素使用XPath。

对于其他html分析程序看看 这个这么问题.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top