Question

J'ai besoin de faire quelques modifications simples à HTML en C ++, de préférence sans réécriture complètement le HTML, comme ce qui se passe quand je l'utilise libxml2 ou MSHTML.

En particulier je dois être capable de lire, et (potentiellement) modifier, le « src » attribut de tous les éléments « img ». Je besoin d'être suffisamment robuste pour pouvoir le faire avec un code HTML valide, mais de préférence sans modifier l'autre HTML dans le processus.

Y a-t-il des bibliothèques là-bas qui seraient en mesure de gérer cette situation? Ou est-ce quelque chose que je peux faire avec des expressions régulières? Je ne suis pas trop avertis avec des expressions régulières, et je l'ai lu beaucoup de questions ici qui disent que vous ne devriez pas les utiliser pour analyser HTML, mais je ne suis pas clair si cela s'applique à quelque chose comme ceci ou si ce principe applique principalement à l'analyse dans le contexte de la construction d'un arbre du HTML.

Était-ce utile?

La solution

Les expressions régulières ne sont pas recommandés pour HTML, car ils ne gèrent pas bien les balises imbriquées. Ils devraient être bien à cet effet.

Autres conseils

Essayez de regarder HTMLTidy

Je l'ai utilisé pour des choses semblables dans le passé.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top