HTML dans Android parsing
-
27-10-2019 - |
Question
Je suis en train d'apprendre à analyser HTML, mais comme je n'ai pas beaucoup d'expérience dans Java ou Android, il est un peu compliqué. J'ai lu le tutoriel d'analyse XML IBM et ont appris à analyser un flux RSS. Mon problème est: Je voudrais obtenir des données à partir d'un site HTML. J'ai lu des informations sur HTML propre, JSON, etc., mais je ne peux pas trouver un bon tutoriel pour me aider. Avez-vous des tutoriels qui pourraient être utiles?
Merci.
La solution
Consultez les parseurs HTML suivantes. Il y a plus là-bas. Peut-être on va travailler pour vous:
-
HTMLCleaner: http://htmlcleaner.sourceforge.net/
-
TagSoup: http://ccil.org/~cowan/XML/tagsoup/
Autres conseils
OMI, il y a deux façons simples pour analyser HTML:
- Convertir le HML à XML (XHTML) en utilisant une bibliothèque (par exemple HTMLTidy), puis utiliser un analyseur XML
- Utiliser un analyseur HTML existant (par exemple, un navigateur Web standard comme WebKit, ForeFox, et / ou IE), puis lire le « DOM », qui est une représentation plus ou moins-API conviviale du HTML analysable
Par ailleurs, si vous voulez écrire votre propre analyseur (dont je doute, vous devriez, pour les devoirs: il serait long et compliqué à mettre en œuvre correctement / complètement), voir le spécifications pour l'analyse syntaxique HTML .