Comment transformer un site dynamique en site statique pouvant être démo à partir d'un CD?

https://stackoverflow.com/questions/117467

02-07-2019
|

Question

Je dois trouver un moyen d'explorer l'une des applications Web de notre société et de créer un site statique à partir de celui-ci. Ce dernier peut être gravé sur un CD et utilisé par des vendeurs itinérants pour faire une démonstration du site Web. Le magasin de données principal est réparti sur de nombreux systèmes. Il ne suffit donc pas d'exécuter le site sur une machine virtuelle sur l'ordinateur portable du vendeur. Et ils n’auront pas accès à Internet chez certains clients (pas d’Internet, pas de téléphone portable ... primitif, je sais).

Quelqu'un a-t-il de bonnes recommandations pour les robots d'exploration qui peuvent gérer des tâches telles que le nettoyage des liens, le flash, un peu d'ajax, de css, etc.? Je sais que les chances sont minces, mais j’ai pensé poser la question avant de commencer à écrire mon propre outil.

La solution

wget ou curl peuvent à la fois suivre récursivement les liens et refléter un site entier, ce qui peut être un bon pari. Vous ne pourrez pas utiliser de véritables parties interactives du site, telles que les moteurs de recherche ou tout ce qui modifie les données, thoguh.

Est-il possible de créer des services backend factices pouvant être exécutés à partir des ordinateurs portables des vendeurs, avec lesquels l'application peut s'interfacer?

Autres conseils

En utilisant un WebCrawler , par exemple. un de ceux-ci:

DataparkSearch est un robot et un moteur de recherche publié sous la licence publique générale GNU.
GNU Wget est un robot analysé en ligne de commande écrit en C et publié sous GPL. Il est généralement utilisé pour mettre en miroir des sites Web et FTP.
HTTrack utilise un robot d'indexation Web pour créer le miroir d'un site Web en vue d'une visualisation hors ligne. Il est écrit en C et publié sous la licence GPL.
ICDL Crawler est un robot Web multi-plateforme écrit en C ++ et destiné à analyser des sites Web basés sur des modèles d’analyse de site Web en utilisant uniquement les ressources de calcul libres de l'ordinateur.
JSpider est un moteur de recherche Web hautement configurable et personnalisable publié sous la licence GPL.
Larbin par Sébastien Ailleret
Outils Web4larbin par Andreas Beder
Methabot est un robot Web et un utilitaire de ligne de commande optimisés pour la vitesse écrits en C et publiés sous une licence BSD à 2 clauses. Il comporte un système de configuration étendu, un système de modules et prend en charge l'analyse ciblée via un système de fichiers local, HTTP ou FTP.
Jaeksoft WebSearch est un crawler et un indexeur Web construit sur Apache Lucene. Il est publié sous la licence GPL v3.
Nutch est un robot écrit en Java et publié sous licence Apache. Il peut être utilisé avec le package d’indexation de texte Lucene.
Pavuk est un outil de miroir Web en ligne de commande avec robot d'exploration en option de l'interface graphique X11 et publié sous la licence GPL. Il a un tas de fonctionnalités avancées par rapport à wget et httrack, par exemple. Règles de filtrage et de création de fichier basées sur les expressions régulières.
WebVac est un robot utilisé par le projet Stanford WebBase.
WebSPHINX (Miller et Bharat, 1998) est composé d’une bibliothèque de classes Java implémentant la récupération de pages Web multithreads et l’analyse HTML, ainsi que d’une interface utilisateur graphique permettant de définir les adresses URL de départ, d’extraire les données téléchargées et de mettre en œuvre une solution de remplacement. moteur de recherche textuel de base.
WIRE - Environnement de récupération des informations Web [15] est un robot d'exploration du site Web écrit en C ++ et publié sous licence GPL, comprenant plusieurs règles permettant de planifier les téléchargements de page et un module permettant de générer des rapports et des statistiques sur les pages téléchargées. pour la caractérisation Web.
LWP :: RobotUA (Langheinrich, 2004) est une classe Perl pour la mise en oeuvre de robots Web parallèles bien comportés distribués sous la licence Perl 5.
Web Crawler Classe de robot Web open source pour .NET (écrite en C #).
Sherlock Holmes Sherlock Holmes collecte et indexe des données textuelles (fichiers texte, pages Web, ...), à la fois localement et sur le réseau. Holmes est sponsorisé et utilisé commercialement par le portail web tchèque Centrum. Il est également utilisé par Onet.pl.
YaCy, un moteur de recherche distribué gratuit basé sur les principes des réseaux peer-to-peer (sous licence GPL).
Ruya Ruya est un robot d'indexation Web basé sur plusieurs niveaux et offrant des performances élevées. Il est utilisé pour explorer les sites Web anglais et japonais de manière avisée. Il est publié sous la licence GPL et est entièrement écrit en langage Python. Une implémentation SingleDomainDelayCrawler obéit au fichier robots.txt avec un délai d’analyse.
Universal Information Crawler Crawler Web en développement rapide. Crawls Enregistre et analyse les données.
Noyau d'agent Un cadre Java pour la gestion de la planification, des threads et du stockage lors de l'analyse.
Spider News, Informations concernant la construction d’une araignée en perl.
Arachnode.NET est un robot d'indexation Web à la source ouverte pour le téléchargement, l'indexation et le stockage de contenu Internet, notamment d'adresses de messagerie, de fichiers, de liens hypertexte, d'images et de pages Web. Arachnode.net est écrit en C # sous SQL Server 2005 et est publié sous licence GPL.
dine est un client / robot d'indexation Java multithread pouvant être programmé en JavaScript publié sous la licence LGPL.
Crawljax est un robot Ajax basé sur une méthode qui construit dynamiquement un "graphe de flux d'état" modélisant les divers chemins et états de navigation dans une application Ajax. Crawljax est écrit en Java et publié sous licence BSD.

Juste parce que personne n’a collé une commande de travail, j’essaie ... dix ans plus tard : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Cela a fonctionné comme un charme pour moi.

Vous ne pourrez pas gérer des requêtes telles que des requêtes AJAX sans graver un serveur Web sur le CD, ce qui, je le comprends bien, est impossible.

wget téléchargera le site pour vous (utilisez le paramètre -r pour " récursif "), mais tout contenu dynamique tel que les rapports, etc. ne fonctionnera bien sûr pas, vous obtiendrez un seul instantané.

Si vous finissez par devoir l'exécuter depuis un serveur Web, vous voudrez peut-être jeter un coup d'œil à:

ServerToGo

Il vous permet d’exécuter une pile WAMPP à partir d’un CD, avec l’aide de mysql / php / apache. Les bases de données sont copiées dans le répertoire temporaire des utilisateurs actuels au lancement et peuvent être exécutées entièrement sans que l'utilisateur n'installe quoi que ce soit!

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow