从Java验证HTML的快速而简单的方法是什么?我正在寻找一个描述100-ODD HTML标签的各种属性的开源/PD类(或一组类),例如:

  1. 标签是可选的吗?空的?省略其关闭标签是合法的吗?
  2. 此标签还包含哪些标签(如果有)?
  3. 该标签的哪些属性是合法的,它们的类型是什么? (不是必需的,但很高兴有)

谢谢!

编辑

我希望对HTML文档进行标签分析,因此我对文档整体是否有效,而是对每种标签的特定要求是什么。我可以基于W3C规格编码规则,但想看看哪些现成的解决方案首先可用。

有帮助吗?

解决方案

如果要验证某些标签遵循某些规格,则基于Java的HTML解析器似乎没有结束:

Java的开源HTML解析器

换句话说,您可以解析HTML,然后检查所得的文档是否正在寻找的标签,并确定它们是否符合所需的规格。如果他们不这样做,您就可以丢下错误。

我认为您不会找到一个牢记您的要求编写的HTML分析工具,这主要是因为这些要求尚未表达出来,并且可能有些模糊。

如果解析器没有开箱即用,至少此列表是开源的,因此只要发布更改,就可以入侵解析器。

其他提示

检查jtidy(http://jtidy.sourceforge.net/)和越野士(Htmlparser)( http://sourceforge.net/projects/binhgiang/ )两者都是Java HTML解析器和一些语法检查功能。一些基于Eclipse的HTML编辑器插件使用Jtidy(或整理端口)进行语法检查。或AS 大卫说, ,将页面提交到w3c.org

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top