Biblioteca Java para análise HTML
-
23-09-2019 - |
Pergunta
(Já vi perguntas semelhantes, mas acho que nenhuma delas atende às minhas necessidades específicas, portanto...)
Gostaria de saber se existe uma biblioteca Java para análise do mundo real (leia-se:incompleto, mal formado) HTML.Por análise, quero dizer coisas como:
- descobrir a cor mais proeminente em um bloco HTML
- mudar essa cor para alguma outra cor (portanto, também deve suportar modificação do HTML)
- removendo tags indesejadas
- corrigindo o HTML para resultar em um snippet HTML bem formado
Partes dos dois últimos são feitas por bibliotecas como Jericho e jTidy.'Plugins' além disso seriam ótimos.
Desde já, obrigado!
Solução
Você pode querer conferir o TagSoup:
Outras dicas
Bem, eu o organizaria primeiro em XML válido e, em seguida, usando XSLT, faria uma cópia profunda condicional, onde faria a cor/remoção mais proeminente/qualquer processamento que você precisar.
Isso parece ter sido corrigido pela Microsoft, já que agora está de volta a uma velocidade aceitável e, tanto quanto eu sei, nossos administradores não aplicam nenhuma correção / alteração nas configurações de coleta de site.
Talvez você encontre algo em esta lista (Tente Tagsoup, nekohtml, vietspider htmlparser).