Extraire le contenu div de htmlsource en chaîne (Java)

https://stackoverflow.com/questions/836462

08-07-2019
|

Question

J'essaie d'extraire le contenu d'une balise div spéciale (définie par son nom de classe) d'une chaîne contenant le code source HTML. Je pense que les fonctionnalités de regexp de Java ne sont pas aussi faciles à utiliser qu'en perl, n'est-ce pas?

Est-ce que quelqu'un a déjà fait cela auparavant et peut me donner un morceau de code? La navigation par dom est peut-être une bonne solution, mais je n’ai trouvé aucun tutoriel correspondant à mon problème.

La solution

Sur la base de vos commentaires, vous avez l’impression que vous avez un cas général ("crawler") et que vous analysez donc efficacement un fichier XML. Si la page source est xhtml, vous disposez de nombreuses options dans diverses bibliothèques XML. (JDom, par exemple).

Autres conseils

Vous pouvez utiliser Analyseur HTML ou une autre bibliothèque d'analyse HTML de cette list .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow