Biblioteca Java para análise HTML

https://stackoverflow.com/questions/2144966

23-09-2019
|

Pergunta

(Já vi perguntas semelhantes, mas acho que nenhuma delas atende às minhas necessidades específicas, portanto...)

Gostaria de saber se existe uma biblioteca Java para análise do mundo real (leia-se:incompleto, mal formado) HTML.Por análise, quero dizer coisas como:

descobrir a cor mais proeminente em um bloco HTML
mudar essa cor para alguma outra cor (portanto, também deve suportar modificação do HTML)
removendo tags indesejadas
corrigindo o HTML para resultar em um snippet HTML bem formado

Partes dos dois últimos são feitas por bibliotecas como Jericho e jTidy.'Plugins' além disso seriam ótimos.

Desde já, obrigado!

Solução

Você pode querer conferir o TagSoup:

http://home.ccil.org/~cowan/xml/tagsoup/

Outras dicas

Bem, eu o organizaria primeiro em XML válido e, em seguida, usando XSLT, faria uma cópia profunda condicional, onde faria a cor/remoção mais proeminente/qualquer processamento que você precisar.

Isso parece ter sido corrigido pela Microsoft, já que agora está de volta a uma velocidade aceitável e, tanto quanto eu sei, nossos administradores não aplicam nenhuma correção / alteração nas configurações de coleta de site.

Talvez você encontre algo em esta lista (Tente Tagsoup, nekohtml, vietspider htmlparser).

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow