Java-Bibliothek für die HTML-Analyse
-
23-09-2019 - |
Frage
(Ich habe ähnliche Fragen gesehen, aber ich glaube, keiner von ihnen auf meine speziellen Bedürfnisse zugeschnitten ist, also ...)
Ich möchte wissen, ob es eine Java-Bibliothek für die Analyse der realen Welt ist (sprich: unvollständig, schlecht gebildet) HTML. Durch Analyse, meine ich Dinge wie:
- die auffälligste Farbe in einem HTML-Chunks herauszufinden
- diese Farbe zu einer anderen Farbe zu ändern (also muss Unterstützung Modifizierung des HTML als auch)
- Beschneiden unerwünschte Tags
- Sie die HTML-Fixierung bis führen in einer gut gebildeten HTML-Snippet
Teile der letzten beiden werden von Bibliotheken wie Jericho getan, und jtidy. ‚Plugins‘ oben auf diese wäre toll.
Vielen Dank im Voraus!
Lösung
Sie möchten vielleicht tagsoup überprüfen:
Andere Tipps
Nun, ich würde es ordentlich zuerst in gültige XML, dann mit XSLT eine bedingte tiefe Kopie zu tun, wo ich die am meisten prominent-Farbe tun würde / Beschneiden / was auch immer die Verarbeitung Sie benötigen.
Vielleicht finden Sie etwas in dieser Liste (versuchen tagsoup, NekoHTML , VietSpider HTMLParser).