题
什么是使用SAS URL访问方法来读取网页时,删除所有的HTML标签的最便捷的方式?
解决方案
这应该做你想要什么。移除<之间一切>包括<>和叶只是内容(又名的innerHTML)。
Data HTMLData;
filename INDEXIN URL "http://www.zug.com/";
input;
textline = _INFILE_;
/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);
run;
其他提示
我想的方法是不从页面中删除HTML,但确定您要捕获数据的标准模式。这是Perl /正则表达式类型的方法。
一个例子可能是一些数据或表标志图像之后谈到那么多字符。你可以写一个脚本来只保留数据。
如果您想发表一些HTML,也许我们可以帮助解码。
不隶属于 StackOverflow