我需要把一个小项目一起为我自己,我需要一些功能,以下载页面进行离线观看。是否有会下载指定页面及其嵌入的图像,和编辑的img标签,以反映图像的局部位置的库。

我知道有很多网站提供下载的摆在那里,但我不能找到的东西,我可以在我的代码直接使用。

我在蟒蛇做了一些基本的脚本,所以Python是非常欢迎的。但几乎任何语言都行。

有帮助吗?

解决方案

是,BeautifulSoup +蟒的urllib 模块

其他提示

您正在寻找 BeautifulSoup

如何蟒蛇网络爬虫? http://code.google.com/p/pywebcrawler/

OR,银莲花(红宝石)? http://anemone.rubyforge.org/

简单的解决方案,我能想到的。

wget -p example.com
许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top