Question

(je l'ai vu des questions similaires, mais je pense qu'aucun d'entre eux répondre à mes besoins spécifiques, donc ...)

Je voudrais savoir s'il y a une bibliothèque Java pour analyser le monde réel (lire: incomplet, mal formé) HTML. Par l'analyse, je veux dire des choses comme:

  • déterminer la couleur la plus importante dans un morceau HTML
  • changer cette couleur à une autre couleur (par conséquent, doit prendre en charge la modification du code HTML ainsi)
  • élagage des balises non désirées
  • fixer le code HTML pour aboutir à un code HTML bien formé

Les parties les deux dernières sont effectuées par des bibliothèques telles que Jéricho et JTidy. « Plugins » sur le dessus de ceux-ci seraient grands.

Merci d'avance!

Était-ce utile?

La solution

Vous pouvez consulter TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

Autres conseils

Eh bien, je ranger d'abord en XML valide, en utilisant XSLT faire une copie profonde conditionnelle où je ferais la plus importante couleur / taille / quel que soit le traitement dont vous avez besoin.

Jetez un oeil à JTidy , un port de Java HTML Tidy . Il, en fonction des options que vous choisissez, fixer non-HTML bien formé et par ailleurs le nettoyer.

Vous aurez besoin de quelque chose d'autre pour les choses changer de couleur.

Peut-être que vous trouverez quelque chose dans cette liste (essayez TagSoup, NekoHTML , VietSpider HTMLParser).

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top