Extraindo informações de sites

https://stackoverflow.com/questions/318564

11-07-2019
|

Pergunta

Nem todo site expõe seus dados bem, com feeds XML, APIs, etc

Como eu poderia ir sobre como extrair informações de um site? Por exemplo:

...
<div>
  <div>
    <span id="important-data">information here</span>
  </div>
</div>
...

Eu venho de um fundo de programação Java e codificação com Apache XMLBeans. Existe alguma coisa semelhante para analisar HTML, quando eu conhecer a estrutura e os dados são entre um tag conhecido?

Graças

Solução

Existem várias Open Source HTML analisadores lá fora para Java.

Eu tenho usado boa sorte JTidy no passado, e tiveram com ele. Ele lhe dará um DOM da página html, e você deve ser capaz de agarrar as tags que você precisa de lá.

Outras dicas

Aqui está um artigo que tem um par de ferramentas captura de tela escrito em java.

Em geral, parece que você quiser dar uma olhada expressões regulares , o que fazer a correspondência de padrões que você está procurando.

Espero que ajude!

Java parece ser uma restrição bastante difícil para tal tarefa a. É que uma exigência difícil? linguagens de script são ideais para construir o que é realmente um monte de código de última milha.

Se você é estar aberto a isso, rubi + hpricot faz que completamente trivial. Você pode usar CSS ou XPath seletores (ou ambos) para encontrar (e manipular) o conteúdo em HTML. Agarrando o documento, analisá-lo, e extrair o texto no seu exemplo é, literalmente, uma linha de código.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow