Comment puis-je supprimer HTML à partir de la méthode d'accès URL SAS?
Question
Quelle est la façon la plus pratique de supprimer toutes les balises HTML lorsque vous utilisez la méthode d'accès URL SAS pour lire des pages web?
La solution
Cela devrait faire ce que vous voulez. Supprime tout entre les balises <> y compris le <> et laisse juste le contenu (aka innerHTML).
Data HTMLData;
filename INDEXIN URL "http://www.zug.com/";
input;
textline = _INFILE_;
/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);
run;
Autres conseils
Je pense que la méthode est de ne pas supprimer le code HTML de la page, mais d'identifier les modèles standard pour les données que vous essayez de capturer. Ceci est l'expression perl / régulières méthode de type.
Un exemple pourrait être des données ou table qui vient tant de caractères après l'image du logo. Vous pouvez écrire un script pour ne conserver que les données.
Si vous voulez afficher du HTML, nous pouvons peut-être aider à décoder.