Extraia o conteúdo da div do htmlsource em string (java)

https://stackoverflow.com/questions/836462

html
java
extract

08-07-2019
|

Pergunta

Estou tentando extrair o conteúdo de um Div-Tag especial (definido por seu nome de classe) de uma string que contém fonte HTML. Eu acho que os recursos regexp de Java não são tão fáceis de usar como em Perl, certo?

Alguém fez isso antes e pode me dar um pedaço de código? Talvez a navegação DOM seja uma boa solução, mas eu não encontrei nenhum tutorial, combinando com o meu problema.

Solução

Com base em seus comentários, parece que você tem um caso geral ("rastreador") e, portanto, está efetivamente analisando um arquivo XML. Se a página de origem for xhtml, você terá uma variedade de opções em várias bibliotecas XML. (JDOM, por exemplo).

Outras dicas

Você poderia usar Analisador HTML ou alguma outra biblioteca de análise HTML deste Lista.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow