我喜欢跟踪 delicious.com/popular RSS Feed。但是,最近这些项目中的亚洲页面越来越多。由于我不懂任何亚洲语言,我想以某种方式从Feed中过滤它们并节省一些时间。

我一直在尝试使用雅虎管道来烹饪一些东西,但一直无法做到让它运作起来。

任何想法如何使这项工作?

有帮助吗?

解决方案

我在 http://pipes.yahoo上运气不错。 COM /管/ pipe.info?_id = yJh1aRp_3hGaPi23tPvyrQ

管道的源代码包含所有信息,但是关键位是运行带有正则表达式^[A-Za-z 0-9 \.,\?'""!@#\$%\^&\*\(\)-_=\+;:<>\/\\\|\}\{\[\]〜] + $`的过滤器。

这将过滤掉标题中除标准ASCII之外的任何其他内容。不幸的是,这意味着它还会过滤像<!>“r <!>#233; sum <!>#233;,<!> quot;等词。但是你应该很容易调整正则表达式,以包含你所知道语言的常见非英语字符。

其他提示

您可能希望跳过超过X%的字符不是来自分配给您可以理解的那些语言的脚本的代码块的标题。例如,如果您不能阅读希腊语,俄语,阿拉伯语,希伯来语,亚美尼亚语,中文,日语,韩语,印度语等语言,请拒绝超过(例如)10%的字符不在U + 0000范围内的标题U + 0233。这会留下拉丁字母。留下10%的保证金的想法是标点符号;技术文章也可以使用不在基础字母表中的符号。

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top