Frage

(Ich habe ähnliche Fragen gesehen, aber ich glaube, keiner von ihnen auf meine speziellen Bedürfnisse zugeschnitten ist, also ...)

Ich möchte wissen, ob es eine Java-Bibliothek für die Analyse der realen Welt ist (sprich: unvollständig, schlecht gebildet) HTML. Durch Analyse, meine ich Dinge wie:

  • die auffälligste Farbe in einem HTML-Chunks herauszufinden
  • diese Farbe zu einer anderen Farbe zu ändern (also muss Unterstützung Modifizierung des HTML als auch)
  • Beschneiden unerwünschte Tags
  • Sie die HTML-Fixierung bis führen in einer gut gebildeten HTML-Snippet

Teile der letzten beiden werden von Bibliotheken wie Jericho getan, und jtidy. ‚Plugins‘ oben auf diese wäre toll.

Vielen Dank im Voraus!

War es hilfreich?

Lösung

Sie möchten vielleicht tagsoup überprüfen:

http://home.ccil.org/~cowan/XML/tagsoup/

Andere Tipps

Nun, ich würde es ordentlich zuerst in gültige XML, dann mit XSLT eine bedingte tiefe Kopie zu tun, wo ich die am meisten prominent-Farbe tun würde / Beschneiden / was auch immer die Verarbeitung Sie benötigen.

Hier finden Sie aktuelle jtidy , ein Java-Port von HTML Tidy . Es wird je nach, welche Möglichkeiten Sie wählen, fix nicht-wohlgeformte HTML und es ansonsten aufzuräumen.

Sie werden ändernden Sachen etwas anderes für die Farbe benötigen.

Vielleicht finden Sie etwas in dieser Liste (versuchen tagsoup, NekoHTML , VietSpider HTMLParser).

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top