我需要找到一种方法爬我们的一个公司的网络应用程序并创建一个静态的站点从它,可以被焚烧的cd和使用的旅行销售人员以演示网站。后端数据存储是跨越许多,许多系统因此只运行的网站上的虚拟机的出售人的笔记本电脑不会的工作。他们不会有接入互联网,同时在一些客户(没有互联网、手机。...原始的,我知道)。

没有任何人有任何好的建议对于爬虫,可以处理的东西喜欢的链路清理,闪一个小小的ajax,css,等等?我知道机率很小,但我想我会扔的问题出在这里,之前我跳入写我自己的工具。

有帮助吗?

解决方案

wget或curl可以递归地跟随链接并镜像整个网站,因此这可能是一个不错的选择。您将无法使用网站的真正互动部分,如搜索引擎,或任何修改数据的内容,thoguh。

是否有可能创建可以从销售人员的笔记本电脑运行的虚拟后端服务,应用程序可以与之交互?

其他提示

通过使用 WebCrawler, 如这个:

  • DataparkSearch是一种履带式和搜索引擎放在GNU通用公共许可证。
  • GNU Wget是一个命令行操作的履C编写和发布的下GPL。它通常被用来反射镜网络和FTP站点。
  • HTTrack使用一个网页履带来创建一个镜像网站的离线查看。它是编写和发布的下GPL。
  • ICDL爬行是一个跨平台的网履用C++编写和旨在爬网站中基于网站的分析模板使用计算机的免费CPU资源只。
  • JSpider是一个高度配置和定制网络蜘蛛发动机放下GPL。
  • Larbin通过塞巴斯蒂安Ailleret
  • Webtools4larbin由安德烈亚斯*Beder
  • Methabot是一个速度优化网履和command line utility C编写和发布的下一个2款BSD许可证。它拥有一个广泛的结构系统,一个模块的系统和具有支持有针对性的爬行通过当地文件系统HTTP或FTP。
  • Jaeksoft的是一个网履和indexer建立了Apache分类:设.它被释放GPL v3许可证。
  • Nutch是一种履带式Java编写和发布的下一个Apache许可证。它可以结合使用的分类:设文索引,包。
  • Pavuk是一个命令行网镜的工具,可选X11GUI履和发布的下GPL。这有一堆先进的功能,相比wget和httrack,例如。经常表达的基于筛选和创建文件的规则。
  • WebVac是一种履带式使用由斯坦福大学WebBase项目。
  • WebSPHINX(米勒和印度,1998年)是由一个Java类库,实现多线网页检索和HTML分析,和一个图形用户接口中设置起网址,以提取的下载数据和执行的基本文本为基础的搜索引擎。
  • 丝网的信息检索的环境,[15个]是一个网履用C++编写和发布GPL,包括几个政策,用于调度页下载和一个模块,用于生成报告和统计数据下载的页,因此它已被用于网络的表征。
  • LWP::RobotUA(Langheinrich,2004年)是一个Perl级实现良好的平行网机器人分布在Perl5的许可证。
  • 网履开放源码网络爬虫类。网(C#编写).
  • 福尔摩斯夏洛克福尔摩斯收集和索引的文本数据(文本的文件、网页,...)在当地以及通过网络。福尔摩斯的赞助和商业上使用捷克语的门户网站中心。它也是用于通过Onet.pl.
  • YaCy,免费分发的搜索引擎,建立在原则peer-to-peer networks(授权下GPL)。
  • Ruya Ruya是一个开源、高性能的广度优先水平的基于网络爬虫。它是用爬的英语和日语网站在表现良好方式。它被释放GPL是完全写在蟒蛇的语言。一SingleDomainDelayCrawler执行服从robots.txt 一个爬延迟。
  • 普遍的信息履快速发展的网络爬虫。爬保存和分析数据。
  • 代理核Java框架的时间表,线和储存管理当爬行。
  • 蜘蛛新闻、信息关于建立一个蜘蛛在perl。
  • Arachnode.NET是一个开放源混杂的网履下载、编制索引和储存的互联网内容,包括电子邮件地址、文件的超级链接、图片和网页。Arachnode.net 是写在C#using SQL服务器2005年发布在GPL。
  • 用餐是多线程的Java HTTP client/履可编程在JavaScript下发布的LGPL.
  • Crawljax是一个Ajax履基于一种方法,该方法动态建立了一个`的状态-流动图'模拟各种各样的导航路径和国家内的阿贾克斯的应用程序。Crawljax是Java编写和发布的下BSD许可证。

因为没有人复制粘贴了一份工作指令......我正在努力......十年之后。 :d

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

它对我来说就像一个魅力。

如果没有将网络服务器刻录到CD上,你将无法处理AJAX请求之类的事情,我知道你已经说过这是不可能的。

wget 将为您下载该网站(使用-r参数表示“递归“),但任何动态内容如报告等当然都无法正常工作,你只需要获得一个快照。

如果您最终不得不从网络服务器上运行它,您可能需要查看:

ServerToGo

它允许您从CD运行WAMPP堆栈,完成mysql / php / apache支持。数据库在启动时被复制到当前用户临时目录,并且可以在用户不安装任何内容的情况下完全运行!

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top