Java-библиотека для анализа HTML
-
23-09-2019 - |
Вопрос
(Я видел подобные вопросы, но думаю, что ни один из них не отвечает моим конкретным потребностям, поэтому...)
Я хотел бы знать, существует ли библиотека Java для анализа реального мира (читайте:неполный, неправильно сформированный) HTML.Под анализом я имею в виду такие вещи, как:
- определение наиболее заметного цвета в фрагменте HTML
- изменение этого цвета на какой-либо другой цвет (следовательно, он также должен поддерживать модификацию HTML)
- удаление ненужных тегов
- исправление HTML для получения правильно сформированного фрагмента HTML
Частично последние два выполняются такими библиотеками, как Jericho и jTidy.«Плагины» поверх них были бы великолепны.
Заранее спасибо!
Решение
Возможно, вы захотите проверить TagSoup:
Другие советы
Ну, я бы сначала привел его в действительный XML, а затем с помощью XSLT сделал бы условную глубокую копию, где я бы выполнил наиболее заметный цвет/обрезку/любую обработку, которая вам нужна.
Взгляни на ДжейТиди, Java-порт HTML аккуратный.В зависимости от того, какие параметры вы выберете, он исправит неправильно сформированный HTML или иным образом очистит его.
Вам понадобится что-то еще для вещей, меняющих цвет.
Возможно, вы найдете что-то в этот список (попробуйте TagSoup, NekoHTML, VietSpider HTMLParser).