Извлечение информации с веб-сайтов

https://stackoverflow.com/questions/318564

11-07-2019
|

Вопрос

Не каждый веб-сайт хорошо предоставляет свои данные с помощью XML-каналов, API и т. Д

Как я мог бы приступить к извлечению информации с веб-сайта?Например:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

Я имею опыт программирования на Java и кодирования с помощью Apache XMLBeans.Есть ли что-нибудь похожее на синтаксический анализ HTML, когда я знаю, что структура и данные находятся между известным тегом?

Спасибо

Решение

Существует несколько парсеров HTML с открытым исходным кодом для Java.

Я использовал Аккуратный в прошлом, и мне с этим везло.Это даст вам DOM html-страницы, и вы должны быть в состоянии получить оттуда нужные вам теги.

Другие советы

Вот статья в нем есть пара инструментов для очистки экрана, написанных на java.

В общем, это звучит так, как будто вы хотите взглянуть на регулярные выражения, которые соответствуют шаблону, который вы ищете.

Надеюсь, это поможет!

Java кажется довольно сложным ограничением для такой задачи.Это жесткое требование?Языки сценариев идеально подходят для создания действительно большого количества кода последней мили.

Если ты готова, будь открыта для этого, руби + хприкот делает это совершенно тривиальным.Вы можете использовать селекторы css или xpath (или оба варианта) для поиска содержимого в HTML (и манипулирования им).Захват документа, его синтаксический анализ и извлечение текста в вашем примере - это буквально одна строка кода.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow