Извлечь содержимое div из htmlsource в строку (Java)
Вопрос
Я пытаюсь извлечь содержимое специального тега div (определяемого его именем класса) из строки, содержащей источник HTML. Я думаю, что регулярные выражения Java не так просты в использовании, как в perl, верно?
Кто-нибудь делал это раньше и может дать мне кусок кода? возможно, dom-browsing - хорошее решение, но я не нашел ни одного учебника, соответствующего моей проблеме.
Решение
Судя по вашим комментариям, у вас есть общий случай (" crawler "), и, таким образом, вы фактически анализируете файл XML. Если исходной страницей является xhtml, то у вас есть множество вариантов в различных библиотеках XML. (JDom, например).
Другие советы
Вы можете использовать HTML-анализатор или другую библиотеку для анализа HTML-кода из этого list .