Java - analyseur SAX sur un document XHTML
-
18-09-2019 - |
Question
Je suis en train d'écrire un analyseur SAX pour un document XHTML que je télécharger à partir du Web. Au début, j'avais un problème avec la déclaration DOCTYPE (j'ai découvert
La solution Le (X) HTML que vous essayez d'analyser n'est pas XML valide (sinon vous ne seriez pas obtenir un erreur d'analyse SAX). Et, un double esperluette ( « Il existe des outils que vous pouvez utiliser, comme TagSoup , qui sera générer des propres événements SAX (vous pouvez utiliser le même code d'analyse syntaxique SAX / XML comme précédemment), mais TagSoup prendra soin de cartographier les mal formés HTML-événements à des événements SAX / XML appropriés. &&
») confirme. Cela signifie que lui-même, vous ne pouvez pas utiliser utiliser un analyseur XML simple pour analyser le document.
Autres conseils
Je pense que vous êtes censé mettre le contenu du script dans une section CDATA, par exemple http : //www.w3schools.com/TAGS/tag_script.asp donne l'exemple suivant:
<script type="text/javascript"><![CDATA[
document.write("Hello World!")
//]]></script>
NekoHTML va probablement résoudre ce problème pour vous aussi, vous l'utilisez comme XMLReader.
Si vous utilisez un filtre SAX, vous pourriez aussi être en mesure d'insérer événements CDATA après que vous rencontrez un startElement pour