bibliothèque Java pour l'analyse HTML
-
23-09-2019 - |
Question
(je l'ai vu des questions similaires, mais je pense qu'aucun d'entre eux répondre à mes besoins spécifiques, donc ...)
Je voudrais savoir s'il y a une bibliothèque Java pour analyser le monde réel (lire: incomplet, mal formé) HTML. Par l'analyse, je veux dire des choses comme:
- déterminer la couleur la plus importante dans un morceau HTML
- changer cette couleur à une autre couleur (par conséquent, doit prendre en charge la modification du code HTML ainsi)
- élagage des balises non désirées
- fixer le code HTML pour aboutir à un code HTML bien formé
Les parties les deux dernières sont effectuées par des bibliothèques telles que Jéricho et JTidy. « Plugins » sur le dessus de ceux-ci seraient grands.
Merci d'avance!
La solution
Vous pouvez consulter TagSoup:
Autres conseils
Eh bien, je ranger d'abord en XML valide, en utilisant XSLT faire une copie profonde conditionnelle où je ferais la plus importante couleur / taille / quel que soit le traitement dont vous avez besoin.
Peut-être que vous trouverez quelque chose dans cette liste (essayez TagSoup, NekoHTML , VietSpider HTMLParser).