(我已经看到类似的问题,但我认为他们没有满足我的特定需要,因此...)

我想知道如果有一个Java库,用于分析的真正的世界(阅读:不完整、虐待形成的)HTML。通过分析,我的意思是一样东西:

  • 计算出的最突出的颜色在HTML块
  • 改变颜色到一些其他颜色的(因此,必须支持修改HTML及)
  • 修剪掉不必要的标记
  • 固定了HTML,结果在形成HTML段

部分最后两个工作都是由图书馆如杰里科和jTidy."插件"这些将是巨大的。

在此先感谢!

有帮助吗?

解决方案

你可能想看看TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

其他提示

好吧,我会整理它第一次成效的XML,然后使用XSLT做一个有条件的深副本,在那里我会做的最突出色的/修剪/无论处理的需要。

看看 JTidy, Java口的 HTML整洁.它将根据什么选择的选项,解决非以及形成HTML,否则它清理干净。

你需要点别的色彩变化的东西。

也许你会找到的东西 这个列表 (尝试TagSoup,NekoHTML,VietSpider HTMLParser).

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top