如何从SAS URL访问方法删除HTML？

https://stackoverflow.com/questions/967072

url
sas
innertext

12-09-2019
|

题

什么是使用SAS URL访问方法来读取网页时，删除所有的HTML标签的最便捷的方式？

解决方案

这应该做你想要什么。移除<之间一切>包括<>和叶只是内容（又名的innerHTML）。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

其他提示

我想的方法是不从页面中删除HTML，但确定您要捕获数据的标准模式。这是Perl /正则表达式类型的方法。

一个例子可能是一些数据或表标志图像之后谈到那么多字符。你可以写一个脚本来只保留数据。

如果您想发表一些HTML，也许我们可以帮助解码。

许可以下： CC-BY-SA 和归因

不隶属于 StackOverflow