我在寻找的一串英文报纸我想跟进的的的刊登和OP-ED页的聚合。我们的目标是生成一个HTML是距离十几报纸我要跟着国际,编辑作品的集合,这样我可以在早上打印出来了。由于这是一个很窄的要求,所以我想写一个关于我自己,我不能找到任何已经上市。

现在,我曾经是一个〜8年在我以前的生活(现在已经被动摇的“阴暗面”,也就是华尔街我的MBA后)程序员。今天我没有足够的知识渊博对编程做出一个脚本语言一个不错的选择使我不确定这对于这个最好的语言是(性能不是关键问题,解析HTML,文字处理以及获取数据,库现场的网页是更重要的)。

PS:我不介意学习一门新的语言几乎完全在Win32的环境中(以前我用的x86 ASM,C和Visual C ++ / MFC广泛的合作)

有帮助吗?

解决方案

使用Python和优异 LXML 以刮HTML库。它支持CSS选择器,这是一个巨大的便利,这是相当快的。它处理破碎HTML也很好。

其他提示

解释型语言代码生成做得很好,你应该想想Perl或红宝石

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top