这HTML分析程序是最好的吗？[关闭]

https://stackoverflow.com/questions/2168610

24-09-2019
|

题

我的代码了很多的分析程序.直到现在，我用的是HtmlUnit无头的浏览器分析和浏览器自动化。

现在，我想要两个单独的任务。

因为80%的我的工作只涉及分析，我想用一个光HTML分析器，因为它需要很多时间在HtmlUnit来第一个负载一个网页，然后获得的来源，然后分析。

我想知道这HTML分析器是最好的。分析器会更好，如果它靠近HtmlUnit分析器。

编辑：

通过最好的，我想至少有以下特点：

速度
轻松找到任何他通过其"id"或"名称"或者"标签类型"。

这将是确定对我来说，如果它不干净脏HTML代码。我不需要清理的任何HTML源。我只是需要一个最简单的方式移动横跨HtmlElements和收获的数据。

解决方案

自插件：我刚刚发布了一个新的Java HTML分析器: jsoup.我提到它在这里因为我认为它会做什么你是之后。

其缔约方的伎俩是一CSS选择的语法找到元素，例如：

String html = "<html><head><title>First parse</title></head>"
  + "<body><p>Parsed HTML into a doc.</p></body></html>";
Document doc = Jsoup.parse(html);
Elements links = doc.select("a");
Element head = doc.select("head").first();

看看选择如果是的话，为什么不试用更多的信息。

这是一个新的项目，因此，任何想法，为改善是非常受欢迎的！

其他提示

我见过的最好到此为止 HtmlCleaner:

HtmlCleaner是开放源代码HTML析编写的。HTML上发现的网络通常是肮脏、虐待形成的，并不适合于进一步处理。对任何严重的消耗量的这类文件，它必须首先收拾残局，并把以标签、属性和普通的文本。为给HTML文档，HtmlCleaner重新排序的各个元素和产生良好的XML。通过默认，它遵循类似的规则，大多数的网络浏览器的使用，以便创建文件的目的模式。但是，用户可以提供定义的标签和规则设置的标签的过滤和平衡。

与HtmlCleaner你可以找到的任何元素使用XPath。

对于其他html分析程序看看这个这么问题.

我建议验证程序。nu的分析器, 基于5分析算法。这是分析程序用于在Safari从2010-05-03

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow