どのように私は、SAS URLアクセスメソッドからHTMLを削除しますか?

StackOverflow https://stackoverflow.com/questions/967072

  •  12-09-2019
  •  | 
  •  

質問

Webページを読み込むためにSAS URLへのアクセス方法を使用している場合、すべてのHTMLタグを削除するための最も便利な方法は何ですか?

役に立ちましたか?

解決

これは、あなたが欲しいものを行う必要があります。含む<間のすべてのものを> <>削除し、単にコンテンツ(別名innerHTMLプロパティ)を残しています。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

他のヒント

私は、方法論は、ページからHTMLを削除していますが、捕獲しようとしているデータのための標準的なパターンを識別することはないと思います。これは、Perl /正規表現の種類の方法論です。

の例では、ロゴ画像の後に非常に多くの文字を来て、いくつかのデータやテーブルがあります。あなただけのデータを保持するためのスクリプトを書くことができます。

あなたには、いくつかのhtmlを投稿したい場合は、

、多分私達はそれをデコードすることができます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top