Question

Quelle est la façon la plus pratique de supprimer toutes les balises HTML lorsque vous utilisez la méthode d'accès URL SAS pour lire des pages web?

Était-ce utile?

La solution

Cela devrait faire ce que vous voulez. Supprime tout entre les balises <> y compris le <> et laisse juste le contenu (aka innerHTML).

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

Autres conseils

Je pense que la méthode est de ne pas supprimer le code HTML de la page, mais d'identifier les modèles standard pour les données que vous essayez de capturer. Ceci est l'expression perl / régulières méthode de type.

Un exemple pourrait être des données ou table qui vient tant de caractères après l'image du logo. Vous pouvez écrire un script pour ne conserver que les données.

Si vous voulez afficher du HTML, nous pouvons peut-être aider à décoder.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top