Biblioteca de Java para el análisis de HTML
-
23-09-2019 - |
Pregunta
(He visto preguntas similares, pero creo que ninguno de ellos se adaptan a mis necesidades específicas, por lo tanto, ...)
Me gustaría saber si hay una biblioteca Java para el análisis del mundo real (es decir: incompleto, mal formada-) HTML. Por análisis, I cosas malas como:
- averiguar el color más prominente en un trozo de HTML
- cambiar ese color a otro color (por lo tanto, tiene a la modificación apoyo del HTML también)
- podando las etiquetas no deseados
- arreglar el HTML para dar como resultado un código HTML bien formado
Las partes de los dos últimos son realizados por las bibliotecas, tales como Jericho, y JTidy. 'plugins' en la parte superior de éstos sería grande.
Gracias de antemano!
Solución
Es posible que desee echa un vistazo a TagSoup:
Otros consejos
Bueno, yo iba a poner en orden primero en XML válido, a continuación, utilizando XSLT hacer una copia profunda condicional, donde lo haría el más prominente color / la poda / lo que sea de procesamiento que necesita.
Tal vez usted encontrará algo en esta lista (TagSoup tratar, NekoHTML , VietSpider HTMLParser).