Frage

Was ist eine schnelle und einfache Art und Weise zu validieren HTML-Code aus Java? Ich suche nach einer Open-Source / PD-Klasse (oder ein Satz von Klassen), die die verschiedenen Eigenschaften der 100-odd HTML-Tags beschreibt, wie zum Beispiel:

  1. Ist der Tag optional? Leer? Ist es legal, seine schließenden Tag zu verzichten?
  2. Welche andere Tags können diesen Tag enthalten (falls vorhanden)?
  3. Welche Attribute sind für diesen Tag legal, und was sind ihre Typen? (Nicht erforderlich, aber schön haben)

Danke!

Bearbeiten

Ich bin auf der Suche nach einem Tag-für-Tag-Analyse eines HTML-Dokument zu tun, also bin ich weniger daran interessiert, ob das Dokument als Ganze gilt, sondern das, was die spezifischen Anforderungen sind für jede Art von Tag . Ich konnte die Regeln basierend auf der W3C-Spezifikation kodieren, sondern wollte sehen, welche fertigen Lösungen zunächst zur Verfügung steht.

War es hilfreich?

Lösung

Wenn Sie bestimmte Tags folgen bestimmten Spezifikationen überprüfen wollen, scheint es kein Ende der Java-basierten HTML-Parser zu sein:

Open Source HTML-Parser in Java

Mit anderen Worten, Sie könnten Sie HTML, analysieren und dann das resultierende Dokument für die Tags prüfen Sie suchen und bestimmen, ob sie den Spezifikationen entsprechen Sie benötigen. Wenn sie es nicht tun könnte man dann nur einen Fehler aus.

Ich glaube nicht, dass Sie ein HTML-Analyse-Tool finden, die genau Ihre Anforderungen in Verstand geschrieben wurden, vor allem, weil diese Anforderungen nicht geäußert worden und sind wahrscheinlich ein bisschen nebulös.

Wenn der Parser nicht tut, was Sie von der Box wollen, zumindest diese Liste Open Source, so dass Sie den Parser so lange hacken können, wie Sie Ihre Änderungen veröffentlichen.

Andere Tipps

Überprüfen Sie jtidy ( http://jtidy.sourceforge.net/ ) und VietSpider HTMLParser ( http://sourceforge.net/projects/binhgiang/ ) beide sind Java-HTML-Parser und einige Syntaxprüfung Fähigkeiten . Einige Eclipse-basierte HTML-Editor-Plugin verwenden jtidy (oder Hafen von Tidy) zur Syntaxprüfung. Oder wie David Said , senden Seite w3c.org

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top