Извлечь содержимое div из htmlsource в строку (Java)

https://stackoverflow.com/questions/836462

08-07-2019
|

Вопрос

Я пытаюсь извлечь содержимое специального тега div (определяемого его именем класса) из строки, содержащей источник HTML. Я думаю, что регулярные выражения Java не так просты в использовании, как в perl, верно?

Кто-нибудь делал это раньше и может дать мне кусок кода? возможно, dom-browsing - хорошее решение, но я не нашел ни одного учебника, соответствующего моей проблеме.

Решение

Судя по вашим комментариям, у вас есть общий случай (" crawler "), и, таким образом, вы фактически анализируете файл XML. Если исходной страницей является xhtml, то у вас есть множество вариантов в различных библиотеках XML. (JDom, например).

Другие советы

Вы можете использовать HTML-анализатор или другую библиотеку для анализа HTML-кода из этого list .

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow