どのように私は、SAS URLアクセスメソッドからHTMLを削除しますか?
質問
Webページを読み込むためにSAS URLへのアクセス方法を使用している場合、すべてのHTMLタグを削除するための最も便利な方法は何ですか?
解決
これは、あなたが欲しいものを行う必要があります。含む<間のすべてのものを> <>削除し、単にコンテンツ(別名innerHTMLプロパティ)を残しています。
Data HTMLData;
filename INDEXIN URL "http://www.zug.com/";
input;
textline = _INFILE_;
/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);
run;
他のヒント
私は、方法論は、ページからHTMLを削除していますが、捕獲しようとしているデータのための標準的なパターンを識別することはないと思います。これは、Perl /正規表現の種類の方法論です。
の例では、ロゴ画像の後に非常に多くの文字を来て、いくつかのデータやテーブルがあります。あなただけのデータを保持するためのスクリプトを書くことができます。
あなたには、いくつかのhtmlを投稿したい場合は、、多分私達はそれをデコードすることができます。
所属していません StackOverflow