Wie archiviere Sie eine ganze Webseite für die Offline-Anzeige?

https://stackoverflow.com/questions/538865

22-08-2019
|

Frage

Wir haben tatsächlich statisch / archivierten Kopien unserer asp.net Websites für Kunden oft verbrannt. Wir verwendet haben, WebZIP bis jetzt, aber wir haben endlose Probleme haben mit Abstürzen, heruntergeladenen Seiten nicht korrekt wieder verbunden ist, etc.

Wir brauchen im Grunde eine Anwendung, die auf unserer Website asp.net (Seiten, Bilder, Dokumente, CSS, etc.) und Downloads statische Kopien von allem kriecht und verarbeitet dann die heruntergeladenen Seiten, so dass sie lokal ohne Internetverbindung durchsucht werden können (erhalten von absoluten URLs in Links zu befreien, etc). Je mehr idiotensicher, desto besser. Dies scheint eine ziemlich häufig und (relativ) einfacher Prozess, aber ich habe ein paar andere Anwendungen ausprobiert und habe wirklich unbeeindruckt worden

Hat jemand Archiv-Software würden sie empfehlen? Hat jemand einen wirklich einfachen Prozess haben sie teilen würden?

Lösung

Unter Windows können Sie sich unter HTTrack . Es ist sehr konfigurierbar so dass Sie die Geschwindigkeit der Downloads setzen. Aber man kann es nur auf einer Website verweisen und sie auch ohne Konfiguration überhaupt ausgeführt werden.

Nach meiner Erfahrung ist es ein wirklich gutes Instrument gewesen und funktioniert gut. Einige der Dinge, die ich über HTTrack mag, sind:

Open Source Lizenz
Resumes gestoppt Downloads
Kann ein vorhandenes Archiv aktualisieren
Sie können konfigurieren, dass nicht aggressiv sein, wenn es herunterlädt, damit es nicht Ihre Bandbreite und die Bandbreite der Website verschwenden.

Andere Tipps

Sie könnten verwenden wget :

wget -m -k -K -E http://url/of/web/site

Die Wayback Machine Downloader von ist hartator einfach und schnell.

Installieren über Ruby dann mit der gewünschten Domäne ausgeführt und optional Zeitstempel aus dem Internet Archive .

sudo gem install wayback_machine_downloader
mkdir example
cd example
wayback_machine_downloader http://example.com --timestamp 19700101000000

Ich benutze Blue Crab auf OSX und WebCopier unter Windows.

wget -r -k

... und den Rest der Optionen untersuchen. Ich hoffe, Sie haben diese Richtlinien befolgt: http://www.w3.org /Protocols/rfc2616/rfc2616-sec9.html , so dass alle Ihre Ressourcen mit GET-Anforderungen sicher sind.

Ich habe gerade benutzen. wget -m <url>

Wenn Sie Ihre Kunden für Compliance-Themen sind die Archivierung, wollen Sie sicherstellen, dass der Inhalt authentifiziert werden kann. Die aufgeführten Optionen sind in Ordnung für einfache Betrachtung, aber sie sind nicht gesetzlich zulässig. In diesem Fall sind Sie für Zeitstempel und digitale Signaturen. Viel komplizierter, wenn Sie tun es selbst. Ich würde einen Service vorschlagen wie PageFreezer .

Für OS X-Benutzer habe ich die Sitesucker Anwendung gefunden hier gut funktioniert, ohne etwas zu konfigurieren aber wie tief es folgt Links.

Ich habe mit HTTrack seit mehreren Jahren. Es kümmert sich um alle der Inter Seite Verlinkung etc. nur in Ordnung. Meine einzige Beschwerde ist, dass ich keinen guten Weg gefunden habe, um es zu halten begrenzt auf eine Subsite sehr gut. Zum Beispiel, wenn es eine Seite www.foo.com/steve ist, dass ich zu archivieren, wird es wahrscheinlich Links zu folgen, die auch www.foo.com/rowe und Archiv. Ansonsten ist es großartig. In hohem Maße konfigurierbar und zuverlässig.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow