我在使用 cyberneko 清理和处理html文档。

我需要能够处理所有的意见发生在原html文档。

我已配置的cyberneko萨克斯分析过程的意见,像这样:

parser.setProperty("http://xml.org/sax/properties/lexical-handler", consumer);

...使用的相同的消费者,因为我DOM事件。

我得到回调每个人的评论:

 @Override
 public void comment(char[] arg0, int arg1, int arg2) throws SAXException {
  System.out.println("COMMENT::: "+new String(arg0, arg1, arg2));
 }

我的问题是, 所有的意见都是处理第一, 出方面的DOM。即我得到回调所有的意见 之前 该文件头的、身体等等。

我想是的评论回到发生在了它们发生在DOM中。

编辑:什么实际上,我试图做的是通过说明即在原html,例如:

 <!--[if lte IE 6]><body class="news ie"><![endif]-->

在那一刻,他们都下降了,我需要它们包括在清洁HTML文档。

有帮助吗?

解决方案

有可能是一个简单的解释那将是明确的,如果你给我们更多的你的代码。

但如果它是一个问题cybernecko,你可以尝试一种不同的分析器等TagSoup.

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top