Pregunta

(He visto preguntas similares, pero creo que ninguno de ellos se adaptan a mis necesidades específicas, por lo tanto, ...)

Me gustaría saber si hay una biblioteca Java para el análisis del mundo real (es decir: incompleto, mal formada-) HTML. Por análisis, I cosas malas como:

  • averiguar el color más prominente en un trozo de HTML
  • cambiar ese color a otro color (por lo tanto, tiene a la modificación apoyo del HTML también)
  • podando las etiquetas no deseados
  • arreglar el HTML para dar como resultado un código HTML
  • bien formado

Las partes de los dos últimos son realizados por las bibliotecas, tales como Jericho, y JTidy. 'plugins' en la parte superior de éstos sería grande.

Gracias de antemano!

¿Fue útil?

Solución

Es posible que desee echa un vistazo a TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

Otros consejos

Bueno, yo iba a poner en orden primero en XML válido, a continuación, utilizando XSLT hacer una copia profunda condicional, donde lo haría el más prominente color / la poda / lo que sea de procesamiento que necesita.

Tome un vistazo a JTidy , un puerto de Java de HTML Tidy . Será, dependiendo de las opciones que elija, solución no bien formado de otro modo HTML y limpiarlo.

Se necesitará algo más para la materia que cambia de color.

Tal vez usted encontrará algo en esta lista (TagSoup tratar, NekoHTML , VietSpider HTMLParser).

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top