Question

Je suis en train d'apprendre à analyser HTML, mais comme je n'ai pas beaucoup d'expérience dans Java ou Android, il est un peu compliqué. J'ai lu le tutoriel d'analyse XML IBM et ont appris à analyser un flux RSS. Mon problème est: Je voudrais obtenir des données à partir d'un site HTML. J'ai lu des informations sur HTML propre, JSON, etc., mais je ne peux pas trouver un bon tutoriel pour me aider. Avez-vous des tutoriels qui pourraient être utiles?

Merci.

Était-ce utile?

La solution

Consultez les parseurs HTML suivantes. Il y a plus là-bas. Peut-être on va travailler pour vous:

Autres conseils

OMI, il y a deux façons simples pour analyser HTML:

  • Convertir le HML à XML (XHTML) en utilisant une bibliothèque (par exemple HTMLTidy), puis utiliser un analyseur XML
  • Utiliser un analyseur HTML existant (par exemple, un navigateur Web standard comme WebKit, ForeFox, et / ou IE), puis lire le « DOM », qui est une représentation plus ou moins-API conviviale du HTML analysable

Par ailleurs, si vous voulez écrire votre propre analyseur (dont je doute, vous devriez, pour les devoirs: il serait long et compliqué à mettre en œuvre correctement / complètement), voir le spécifications pour l'analyse syntaxique HTML .

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top