Wie kann man eine dynamische Website in eine statische Website, die von einer CD demo'd werden kann?

https://stackoverflow.com/questions/117467

02-07-2019
|

Frage

Ich muss einen Weg finden, um unsere Unternehmens-Webanwendungen crawlen eines und eine statische Seite von ihm erstellen, die von reisenden Vertriebsmitarbeiter auf eine CD und verwendet gebrannt werden kann auf der Website zur Demo. Der Back-End-Datenspeicher ist über viele, viele Systeme verteilt, so einfach die Website auf einem VM läuft auf der Laptop-Verkauf Person wird nicht funktionieren. Und sie werden nicht an einige Kunden den Zugang zum Internet, während haben (kein Internet, Handy .... primitiv, ich weiß).

Hat jemand eine gute Empfehlungen für Crawler, die Dinge wie Link Bereinigung, Blitz, ein wenig Ajax, CSS, etc. verarbeiten kann? Ich weiß, Chancen sind schlank, aber ich dachte, ich heraus, die Frage werfen würde hier, bevor ich mein eigenes Werkzeug in dem Schreiben springen.

Lösung

wget oder curl kann sowohl rekursiv Links folgen und eine ganze Website spiegelt, so dass vielleicht eine gute Wette. Sie nutzen können, um wirklich interaktive Teile der Website nicht, wie Suchmaschinen, oder irgendetwas, das die Daten modifiziert, thoguh.

Ist es überhaupt möglich, Dummy-Backend-Service zu erstellen, die von dem Verkauf Leuten Laptops laufen, dass der App mit Schnittstelle kann?

Andere Tipps

Mit dem WebCrawler , z.B. einer der folgenden:

DataparkSearch ist ein Crawler und Suchmaschinen unter der GNU General Public License veröffentlicht.
GNU Wget ist ein Befehlszeilen betrieben Crawler in C geschrieben und unter der GPL veröffentlicht. Es wird normalerweise verwendet, Web- und FTP-Sites zu spiegeln.
HTTrack verwendet einen Web-Crawler einen Spiegel einer Website für die Offline-Ansicht zu erstellen. Es ist in C geschrieben und unter der GPL veröffentlicht.
ECDL Crawler ist ein plattformübergreifende Web-Crawler in C ++ geschrieben und Websites bestimmt basierend auf der Website Parsen Vorlagen zu kriechen unter Verwendung des Computers frei CPU-Ressourcen nur.
JSpider ist ein hochgradig konfigurierbare und anpassbare Web-Spider-Motor unter der GPL veröffentlicht.
Larbin von Sebastien Ailleret
Webtools4larbin von Andreas Beder
Methabot ist ein geschwindigkeitsoptimierte Webcrawler und Kommandozeilen-Programm in C geschrieben und unter einer 2-Klausel-BSD-Lizenz freigegeben. Es verfügt über ein breites Konfigurationssystem, ein Modulsystem und hat die Unterstützung für durch lokales Dateisystem gezielte Krabbeln, HTTP oder FTP.
Jaeksoft WebSearch ist ein Web-Crawler und Indexer Apache Lucene überbaut. Es ist unter der GPL v3-Lizenz veröffentlicht.
Nutch ist ein Crawler in Java geschrieben und unter einer Apache-Lizenz veröffentlicht. Es kann mit dem Lucene Textindizierung Paket in Verbindung verwendet werden.
Pavuk ist ein Kommandozeilen-Web-Spiegel-Tool mit optionalem X11 GUI-Crawler und unter der GPL veröffentlicht. Es hat Bündel von erweiterten Funktionen im Vergleich zu wget und httrack, zum Beispiel. regulärer Ausdruck basierte Filterung und Dateierstellungsregeln.
WebVac ist ein Crawler von der Stanford WebBase Projekt verwendet.
WebSPHINX (Miller und Bharat, 1998) besteht aus einer Java-Klassenbibliothek zusammengesetzt, die Web-Seite Retrieval und HTML-Analyse Multi-Thread implementiert, und eine grafische Benutzeroberfläche, den Start-URLs zu setzen, die heruntergeladenen Daten zu extrahieren und eine implementieren Grundtextbasierte Suchmaschine.
WIRE - Web Information Retrieval Umwelt [15] ein Web-Crawler in C ++ geschrieben ist und unter der GPL, darunter mehrere Richtlinien freigegeben für die Planung der Seite Downloads und ein Modul für Berichte und Statistiken über die heruntergeladenen Seiten zu erzeugen, so dass es verwendet wurde, für Web-Charakterisierung.
LWP :: RobotUA (Langheinrich, 2004) ist eine Perl-Klasse für die Implementierung gut erzogene parallel Webroboter verteilt unter Perl 5-Lizenz.
Web-Crawler Open-Source-Web-Crawler-Klasse für .NET (in C # geschrieben).
Sherlock Holmes Sherlock Holmes sammelt und Indizes Textdaten (Textdateien, Webseiten, ...), sowohl lokal als auch über das Netzwerk. Holmes wird gefördert und im Handel von dem Tschechischen Web-Portal Centrum verwendet. Es wird auch verwendet, um Onet.pl.
YaCy, ein Motor frei verteilte Suche, gebaut auf den Prinzipien der Peer-to-Peer-Netzwerk (unter GPL).
Ruya Ruya ist ein Open-Source-Hochleistungsbreiten erste, Level-basierten Web-Crawler. Es wird verwendet, Englisch und Japanisch Websites in eine gut erzogene Weise zu kriechen. Es wird unter der GPL veröffentlicht und ist vollständig in der Programmiersprache Python geschrieben. Eine SingleDomainDelayCrawler Umsetzung gehorcht mit einer Crawl Verzögerung robots.txt.
Universal Informationen Crawler Schnelle Web-Crawler zu entwickeln. Krabbelt Speichert und analysiert die Daten.
Agent-Kernel Ein Java-Framework für Zeitplan, Faden- und Speichermanagement beim Krabbeln.
Spider-News, Informationen über eine Spinne in Perl zu bauen.
Arachnode.NET, ist eine Open-Source-Promiscuous Web-Crawler für das Herunterladen, Indexierung und Speicherung von Internet-Inhalten, einschließlich E-Mail-Adressen, Dateien, Hyperlinks, Bilder und Webseiten. Arachnode.net ist in C # mithilfe von SQL Server 2005 geschrieben und ist unter der GPL veröffentlicht.
dine ist ein multithreaded Java HTTP Client / Crawler, der in JavaScript programmiert werden kann, unter der LGPL veröffentlicht.
Crawljax ist ein Ajax Raupen basierend auf einem Verfahren, welches dynamisch ein `state-Flußgraphen baut‘ Modelling, die verschiedenen Navigationspfade und Zustände innerhalb einer Ajax-Anwendung. Crawljax ist in Java geschrieben und unter der BSD-Lizenz freigegeben.

Nur weil niemand Kopie eines Arbeits Befehl eingefügt ... Ich versuche, ... 10 Jahre später. : D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

Es funktionierte wie ein Zauber für mich.

Sie werden in der Lage sein nicht Dinge wie AJAX Anfragen zu bearbeiten, ohne einen Webserver auf die CD zu brennen, die ich Ihnen schon gesagt habe verstehen ist unmöglich.

wget die Website herunterladen für Sie (die Parameter -r für „rekursiv verwenden „), aber jede dynamische Inhalte wie Berichte und so weiter natürlich nicht richtig funktionieren, müssen Sie nur einen einzigen Schnappschuss bekommen.

Wenn Sie am Ende mit zu tun, um sie auszuführen weg von einem Webserver, Sie vielleicht einen Blick auf nehmen mögen:

ServerToGo

Damit können Sie ein WAMPP weg von einer CD-Stack laufen, komplett mit MySQL / PHP / Apache-Unterstützung. Die DBs auf den aktuellen Benutzer Temp-Verzeichnis auf Start kopiert werden und kann ohne dass der Benutzer die Installation von etwas ganz ausgeführt werden!

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow