Pregunta

¿Qué es una forma rápida y sencilla para validar HTML de Java? Busco una clase de código abierto / PD (o conjunto de clases) que describe las diversas propiedades de las etiquetas HTML 100 y pico, como por ejemplo:

  1. Es la etiqueta opcional? ¿Vacío? ¿Es legal omitir su etiqueta de cierre?
  2. ¿Qué otras etiquetas pueden contener esta etiqueta (si los hay)?
  3. ¿Qué atributos son legales para esta etiqueta, y cuáles son sus tipos? (No es necesario, pero bueno tener)

Gracias!

Editar

Estoy buscando hacer un análisis de la etiqueta por etiqueta de un documento HTML, por lo que estoy menos interesado en saber si el documento en su conjunto es válido, sino más bien lo que los requisitos específicos para cada tipo de etiqueta . Podría codificar las reglas basadas en la especificación del W3C, pero quería ver qué soluciones prefabricadas están disponibles en primer lugar.

¿Fue útil?

Solución

Si desea verificar ciertas etiquetas siguen ciertas especificaciones, parece que hay un sin fin de Java analizadores HTML basado en:

Open Source HTML analizadores en Java

En otras palabras, ¿podría analizar HTML, y luego inspeccionar el documento resultante de las etiquetas que estábamos buscando y determinar si cumplen con las especificaciones que se requieren. Si no lo hacen entonces podría simplemente tirar un error.

No creo que encontrará una herramienta de análisis de HTML que fue escrito exactamente con sus necesidades en mente, sobre todo porque esos requisitos no se han expresado y son probablemente un poco nebuloso.

Si el analizador no hace lo que quiere de la caja, al menos esta lista es de código abierto, por lo que puede cortar el analizador, siempre y cuando se publican los cambios.

Otros consejos

Comprobar JTidy ( http://jtidy.sourceforge.net/ ) y VietSpider HTMLParser ( http://sourceforge.net/projects/binhgiang/ ) ambos son Java HTML analizador y algunas capacidades de comprobación de sintaxis "nofollow" noreferrer . Algunos editor basado en Eclipse plug-in HTML uso JTidy (o puerto de Tidy) para la comprobación de sintaxis. O como David Said , enviar la página a w3c.org

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top