¿Cómo se convierte un sitio dinámico en un sitio estático al que se le puede hacer una demostración desde un CD?

https://stackoverflow.com/questions/117467

02-07-2019
|

Pregunta

Necesito encontrar una manera de rastrear una de las aplicaciones web de nuestra empresa y crear un sitio estático a partir de ella que pueda grabarse en un CD y ser utilizado por vendedores ambulantes para realizar una demostración del sitio web.El almacén de datos de back-end se distribuye en muchos, muchos sistemas, por lo que simplemente ejecutar el sitio en una máquina virtual en la computadora portátil del vendedor no funcionará.Y no tendrán acceso a Internet mientras estén con algunos clientes (sin Internet, teléfono celular... primitivo, lo sé).

¿Alguien tiene alguna buena recomendación para rastreadores que puedan manejar cosas como limpieza de enlaces, flash, un poco de ajax, css, etc.?Sé que las probabilidades son escasas, pero pensé en dejar la pregunta aquí antes de empezar a escribir mi propia herramienta.

Solución

wget o curl pueden seguir enlaces de forma recursiva y reflejar un sitio completo, por lo que podría ser una buena apuesta.Aunque no podrás utilizar partes verdaderamente interactivas del sitio, como motores de búsqueda, ni nada que modifique los datos.

¿Es posible crear servicios backend ficticios que puedan ejecutarse desde las computadoras portátiles de los vendedores y con los que la aplicación pueda interactuar?

Otros consejos

Al usar un rastreador web, p.ej.uno de estos:

DataparkSearch es un rastreador y motor de búsqueda publicado bajo la Licencia Pública General GNU.
GNU Wget es un rastreador operado por línea de comandos escrito en C y publicado bajo GPL.Normalmente se utiliza para reflejar sitios web y FTP.
HTTrack utiliza un rastreador web para crear un espejo de un sitio web para verlo sin conexión.Está escrito en C y publicado bajo GPL.
ICDL Crawler es un rastreador web multiplataforma escrito en C++ y destinado a rastrear sitios web basados en plantillas de análisis de sitios web utilizando únicamente los recursos gratuitos de la CPU de la computadora.
JSpider es un motor de araña web altamente configurable y personalizable lanzado bajo GPL.
Larbin de Sébastien Ailleret
Webtools4larbin por Andreas Beder
Methabot es un rastreador web de velocidad optimizada y una utilidad de línea de comandos escrita en C y publicada bajo una licencia BSD de 2 cláusulas.Cuenta con un amplio sistema de configuración, un sistema de módulos y admite rastreo dirigido a través del sistema de archivos local, HTTP o FTP.
Jaeksoft WebSearch es un rastreador e indexador web creado sobre Apache Lucene.Se publica bajo la licencia GPL v3.
Nutch es un rastreador escrito en Java y publicado bajo una licencia Apache.Se puede utilizar junto con el paquete de indexación de texto Lucene.
Pavuk es una herramienta de réplica web de línea de comandos con rastreador GUI X11 opcional y publicada bajo GPL.Tiene un montón de funciones avanzadas en comparación con wget y httrack, por ejemplo.Reglas de creación de archivos y filtrado basadas en expresiones regulares.
WebVac es un rastreador utilizado por Stanford WebBase Project.
WebSPHINX (Miller y Bharat, 1998) está compuesto por una biblioteca de clases Java que implementa recuperación de páginas web multiproceso y análisis de HTML, y una interfaz gráfica de usuario para configurar las URL de inicio, extraer los datos descargados e implementar un sistema de texto básico. motor de búsqueda basado en
WIRE - Web Information Retrieval Environment [15] es un rastreador web escrito en C++ y liberado bajo GPL, que incluye varias políticas para programar las descargas de páginas y un módulo para generar informes y estadísticas sobre las páginas descargadas por lo que se ha utilizado para la caracterización web. .
LWP::RobotUA (Langheinrich, 2004) es una clase de Perl para implementar robots web paralelos de buen comportamiento distribuidos bajo la licencia de Perl 5.
Rastreador web Clase de rastreador web de código abierto para .NET (escrito en C#).
Sherlock Holmes Sherlock Holmes recopila e indexa datos textuales (archivos de texto, páginas web,...), tanto localmente como a través de la red.Holmes está patrocinado y utilizado comercialmente por el portal web checo Centrum.También lo utiliza Onet.pl.
YaCy, un motor de búsqueda distribuido gratuito, construido sobre los principios de las redes peer-to-peer (con licencia GPL).
Ruya Ruya es un rastreador web de código abierto, de alto rendimiento y basado en niveles.Se utiliza para rastrear sitios web en inglés y japonés con buen comportamiento.Está publicado bajo GPL y está escrito íntegramente en lenguaje Python.Una implementación de SingleDomainDelayCrawler obedece a robots.txt con un retraso de rastreo.
Universal Information Crawler Rastreador web de rápido desarrollo.Rastreos Guarda y analiza los datos.
Agent Kernel Un marco de Java para la gestión de programación, subprocesos y almacenamiento durante el rastreo.
Spider News, información sobre la construcción de una araña en Perl.
Arachnode.NET es un rastreador web promiscuo de código abierto para descargar, indexar y almacenar contenido de Internet, incluidas direcciones de correo electrónico, archivos, hipervínculos, imágenes y páginas web.Arachnode.net está escrito en C# utilizando SQL Server 2005 y se publica bajo GPL.
dine es un cliente/rastreador Java HTTP multiproceso que se puede programar en JavaScript publicado bajo LGPL.
Crawljax es un rastreador Ajax basado en un método que construye dinámicamente un "gráfico de flujo de estado" que modela las diversas rutas de navegación y estados dentro de una aplicación Ajax.Crawljax está escrito en Java y publicado bajo la licencia BSD.

Sólo porque nadie copió y pegó un comando que funciona...Estoy intentando ...diez años después.:D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Funcionó de maravilla para mí.

No podrá manejar cosas como solicitudes AJAX sin grabar un servidor web en el CD, lo cual entiendo que ya ha dicho que es imposible.

obtener descargará el sitio por usted (use el parámetro -r para "recursivo"), pero cualquier contenido dinámico como informes, etc., por supuesto, no funcionará correctamente, solo obtendrá una instantánea.

Si al final tienes que ejecutarlo desde un servidor web, quizás quieras echarle un vistazo a:

Servidor para ir

Le permite ejecutar una pila WAMPP desde un CD, completa con soporte para mysql/php/apache.Las bases de datos se copian en el directorio temporal de los usuarios actuales al iniciarse y se pueden ejecutar por completo sin que el usuario instale nada.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow