Domanda

Sto cercando di imparare a analizzare HTML, ma come non ho molta esperienza in Java o Android, è un po 'complicato. Ho letto il parsing XML tutorial di IBM e ho imparato ad analizzare un feed RSS. Il mio problema è il seguente: Vorrei ottenere i dati da un sito HTML. Ho letto alcune informazioni su più pulito HTML, JSON, ecc, ma non riesco a trovare un buon tutorial per aiutarmi. Avete qualche tutorial che potrebbero essere utili?

Grazie.

È stato utile?

Soluzione

Controlla le seguenti parser HTML. Ci sono più là fuori. Forse uno lavorerà per voi:

Altri suggerimenti

IMO ci sono due semplici modi per analizzare HTML:

  • Converti la HML a XML (XHTML) utilizzando una libreria (per esempio HTMLTidy) e quindi utilizzare un parser XML
  • Usa un esistente HTML parser (per esempio un browser Web standard come WebKit, ForeFox, e / o IE) e poi leggere il "DOM", che è una rappresentazione più o meno-API-friendly del analizzata HTML

In alternativa, se si vuole scrivere il proprio parser (che dubito si dovrebbe, per compiti a casa: sarebbe lungo e complicato per implementare correttamente / completamente), vedere la specifiche per l'analisi HTML .

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top