什么是使用SAS URL访问方法来读取网页时,删除所有的HTML标签的最便捷的方式?

有帮助吗?

解决方案

这应该做你想要什么。移除<之间一切>包括<>和叶只是内容(又名的innerHTML)。

Data HTMLData;

filename INDEXIN URL "http://www.zug.com/";

input;

textline = _INFILE_;

/*-- Clear out the HTML text --*/
re1 = prxparse("s/<(.|\n)*?>//");
call prxchange(re1, -1, textline);

run;

其他提示

我想的方法是不从页面中删除HTML,但确定您要捕获数据的标准模式。这是Perl /正则表达式类型的方法。

一个例子可能是一些数据或表标志图像之后谈到那么多字符。你可以写一个脚本来只保留数据。

如果您想发表一些HTML,也许我们可以帮助解码。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top