Pregunta

Estoy tratando de aprender a analizar HTML, pero como no tengo mucha experiencia en Java o Android, es un poco complicado. He leído el tutorial de análisis de IBM XML y he aprendido a analizar un feed RSS. Mi problema es: me gustaría obtener datos de un sitio HTML. He leído información sobre HTML Cleaner, JSON, etc., pero no puedo encontrar un buen tutorial para ayudarme. ¿Tiene algún tutorial que pueda ser útil?

Gracias.

¿Fue útil?

Solución

Echa un vistazo a los siguientes analizadores HTML. Hay más por ahí. Quizás uno funcione para ti:

Otros consejos

En mi opinión, hay dos formas fáciles de analizar HTML:

  • Convierta el HML a XML (XHTML) usando una biblioteca (por ejemplo, htmltidy) y luego use un analizador XML
  • Use un analizador HTML existente (por ejemplo, un navegador web estándar como WebKit, Forefox y/o IE) y luego lea el "DOM", que es una representación más o menos apiente del HTML analizado

Alternativamente, si desea escribir su propio analizador (lo que dudo que debería, para la tarea: sería largo y complicado implementarlo correctamente/completamente), consulte el especificaciones para analizar HTML.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top