Вопрос

Я пытаюсь научиться проанализировать HTML, но, поскольку у меня нет большого опыта в Java или Android, это немного сложно. Я прочитал учебник по анализу IBM XML и научился анализировать RSS -канал. Моя проблема в том, что я хотел бы получить данные с сайта HTML. Я прочитал некоторую информацию о HTML Cleaner, JSON и т. Д., Но я не могу найти хорошего урока, чтобы помочь мне. У вас есть какие -либо учебники, которые могут быть полезны?

Спасибо.

Это было полезно?

Решение

Проверьте следующие анализаторы HTML. Есть еще больше. Может быть, у вас подойдет:

Другие советы

ИМО, есть два простых способа проанализировать HTML:

  • Преобразовать HML в XML (XHTML) с использованием библиотеки (например, HTMLTIDY), а затем используйте анализатор XML
  • Используйте существующий HTML-анализатор (например, стандартный веб-браузер, такой как Webkit, ForeFox и/или IE), а затем прочитайте «DOM», который является более или и не подходящим представлением о проанализированном HTML

В качестве альтернативы, если вы хотите написать свой собственный анализатор (который, я сомневаюсь, вы должны, для домашней работы: было бы долго и сложно внедрить его правильно/полностью), см. спецификации для анализа HTML.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top