Question

Qu'est-ce qu'un rapide et moyen simple de valider HTML à partir de Java? Je suis à la recherche d'une classe open source / PD (ou un ensemble de classes) qui décrit les différentes propriétés des balises HTML 100 impairs, tels que:

  1. La balise facultative? Vide? Est-il légal d'omettre sa balise de fermeture?
  2. Quelles autres balises cette balise peut contenir (le cas échéant)?
  3. Quels attributs juridiques de cette balise, et quels sont leurs types? (Non requis, mais agréable d'avoir)

Merci!

EDIT

Je cherche à faire une analyse étiquette par étiquette d'un document HTML, donc je suis moins intéressé à savoir si le document dans son ensemble est valide, mais quelles sont les exigences de spécifiques sont pour chaque type d'étiquette . Je pourrais coder les règles basées sur les spécifications du W3C, mais je voulais voir quelles solutions toutes prêtes sont disponibles en premier.

Était-ce utile?

La solution

Si vous voulez vérifier certaines balises suivent certaines spécifications, il semble y avoir pas de fin de parseurs Java HTML:

Open Source HTML parseurs Java

En d'autres termes, vous pouvez vous analyser HTML, puis examiner le document qui en résulte pour les balises que vous recherchez et de déterminer si elles répondent aux spécifications dont vous avez besoin. Si elles ne vous pouvez pas alors simplement jeter une erreur.

Je ne pense pas que vous trouverez un outil d'analyse HTML qui a été écrit avec exactement vos besoins à l'esprit, surtout parce que ces exigences ne sont pas exprimées et sont probablement un peu nébuleux.

Si l'analyseur ne fait pas ce que vous voulez de la boîte, au moins cette liste est open source, de sorte que vous pouvez pirater l'analyseur aussi longtemps que vous publiez vos modifications.

Autres conseils

Vérifier JTidy ( http://jtidy.sourceforge.net/ ) et VietSpider HTMLParser ( http://sourceforge.net/projects/binhgiang/ ) sont les deux analyseur Java HTML et des capacités de vérification de syntaxe . Certains éclipse avec l'éditeur HTML plug-in utilisation JTidy (ou port de Tidy) pour la vérification de la syntaxe. Ou comme David dit , envoyer la page à w3c.org

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top