Вопрос

(Я видел подобные вопросы, но думаю, что ни один из них не отвечает моим конкретным потребностям, поэтому...)

Я хотел бы знать, существует ли библиотека Java для анализа реального мира (читайте:неполный, неправильно сформированный) HTML.Под анализом я имею в виду такие вещи, как:

  • определение наиболее заметного цвета в фрагменте HTML
  • изменение этого цвета на какой-либо другой цвет (следовательно, он также должен поддерживать модификацию HTML)
  • удаление ненужных тегов
  • исправление HTML для получения правильно сформированного фрагмента HTML

Частично последние два выполняются такими библиотеками, как Jericho и jTidy.«Плагины» поверх них были бы великолепны.

Заранее спасибо!

Это было полезно?

Решение

Возможно, вы захотите проверить TagSoup:

http://home.ccil.org/~cowan/XML/tagsoup/

Другие советы

Ну, я бы сначала привел его в действительный XML, а затем с помощью XSLT сделал бы условную глубокую копию, где я бы выполнил наиболее заметный цвет/обрезку/любую обработку, которая вам нужна.

Взгляни на ДжейТиди, Java-порт HTML аккуратный.В зависимости от того, какие параметры вы выберете, он исправит неправильно сформированный HTML или иным образом очистит его.

Вам понадобится что-то еще для вещей, меняющих цвет.

Возможно, вы найдете что-то в этот список (попробуйте TagSoup, NekoHTML, VietSpider HTMLParser).

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top