動的サイトを、CD からデモできる静的サイトに変えるにはどうすればよいでしょうか?

StackOverflow https://stackoverflow.com/questions/117467

  •  02-07-2019
  •  | 
  •  

質問

会社の Web アプリケーションの 1 つをクロールし、そこから静的サイトを作成する方法を見つける必要があります。静的サイトは、CD に焼き、巡回営業担当者が Web サイトのデモに使用できます。バックエンド データ ストアは非常に多くのシステムに分散しているため、単に営業担当者のラップトップ上の VM 上でサイトを実行するだけでは機能しません。そして、一部のクライアントにいる間はインターネットにアクセスできません(インターネットも携帯電話もありません...原始的です、私は知っています)。

リンクのクリーンアップ、フラッシュ、ちょっとした Ajax、CSS などを処理できるクローラーに関する良い推奨事項を持っている人はいますか?可能性が低いことは承知していますが、独自のツールを作成する前に、ここで質問を投げておこうと思いました。

役に立ちましたか?

解決

wget またはcurl はどちらも再帰的にリンクをたどり、サイト全体をミラーリングできるため、それが良い選択かもしれません。検索エンジンやデータを変更するものなど、サイトの真にインタラクティブな部分は使用できなくなります。

営業担当者のラップトップから実行でき、アプリが接続できるダミーのバックエンド サービスを作成することは可能でしょうか?

他のヒント

を使用することで、 ウェブクローラー, 、例えばこれらのいずれか:

  • DataparkSearch は、GNU General Public License に基づいてリリースされたクローラーおよび検索エンジンです。
  • GNU Wget は、C で書かれ、GPL に基づいてリリースされたコマンドライン操作のクローラーです。通常、Web サイトや FTP サイトをミラーリングするために使用されます。
  • HTTrack は、Web クローラーを使用して、オフラインで表示できる Web サイトのミラーを作成します。これは C で書かれており、GPL に基づいてリリースされています。
  • ICDL クローラーは、C++ で書かれたクロスプラットフォームの Web クローラーで、コンピューターの空き CPU リソースのみを使用して、Web サイト解析テンプレートに基づいて Web サイトをクロールすることを目的としています。
  • JSpider は、GPL に基づいてリリースされた、高度な構成とカスタマイズが可能な Web スパイダー エンジンです。
  • ラルビン by Sebastien Ailleret
  • Webtools4larbin by Andreas Beder
  • Methabot は、速度が最適化された Web クローラーおよびコマンド ライン ユーティリティであり、C で記述され、2 条項の BSD ライセンスに基づいてリリースされています。幅広い構成システム、モジュール システムを特徴とし、ローカル ファイル システム、HTTP または FTP を介した対象を絞ったクロールをサポートします。
  • Jaeksoft WebSearch は、Apache Lucene 上に構築された Web クローラーおよびインデクサーです。GPL v3 ライセンスに基づいてリリースされています。
  • Nutch は Java で書かれたクローラーであり、Apache ライセンスの下でリリースされています。Lucene テキスト インデックス パッケージと組み合わせて使用​​できます。
  • Pavuk は、オプションの X11 GUI クローラーを備えたコマンド ライン Web ミラー ツールであり、GPL の下でリリースされています。wget や httrack と比較して高度な機能が多数あります。正規表現ベースのフィルタリングとファイル作成ルール。
  • WebVac は、Stanford WebBase プロジェクトで使用されるクローラーです。
  • WebSPHINX (Miller および Bharat、1998) は、マルチスレッド Web ページの取得と HTML 解析を実装する Java クラス ライブラリと、開始 URL を設定し、ダウンロードされたデータを抽出し、基本的なテキストを実装するためのグラフィカル ユーザー インターフェイスで構成されています。ベースの検索エンジン。
  • WIRE - Web 情報取得環境 [15] は、C++ で書かれ、GPL の下でリリースされた Web クローラーです。これには、ページのダウンロードをスケジュールするためのいくつかのポリシーと、ダウンロードされたページに関するレポートと統計を生成するためのモジュールが含まれているため、Web の特性評価に使用されています。 。
  • LWP::RobotUA (Langheinrich、2004) は、Perl 5 のライセンスの下で配布される、行儀の良い並列 Web ロボットを実装するための Perl クラスです。
  • Web クローラー .NET 用のオープンソース Web クローラー クラス (C# で記述)。
  • シャーロック ホームズ シャーロック ホームズは、ローカルおよびネットワーク経由でテキスト データ (テキスト ファイル、Web ページなど) を収集し、インデックスを付けます。Holmes は、チェコの Web ポータル Centrum によって後援され、商業的に使用されています。Onet.pl でも使用されています。
  • YaCy は、ピアツーピア ネットワークの原理に基づいて構築された無料の分散型検索エンジンです (GPL に基づいてライセンスされています)。
  • Ruya Ruya は、オープンソースの高性能幅優先のレベルベースの Web クローラーです。英語と日本語の Web サイトを行儀よくクロールするために使用されます。これは GPL に基づいてリリースされており、すべて Python 言語で書かれています。SingleDomainDelayCrawler 実装は、クロール遅延を伴う robots.txt に従います。
  • Universal Information Crawler 高速に開発されている Web クローラー。クロール データを保存して分析します。
  • エージェント カーネル クロール時のスケジュール、スレッド、ストレージ管理のための Java フレームワーク。
  • Spider News、Perl でのスパイダーの構築に関する情報。
  • Arachnode.NET は、電子メール アドレス、ファイル、ハイパーリンク、画像、Web ページなどのインターネット コンテンツをダウンロード、インデックス付け、保存するためのオープン ソースの無差別 Web クローラーです。Arachnode.net は SQL Server 2005 を使用して C# で記述されており、GPL に基づいてリリースされています。
  • dine は、LGPL に基づいてリリースされた JavaScript でプログラムできるマルチスレッド Java HTTP クライアント/クローラーです。
  • Crawljax は、Ajax アプリケーション内のさまざまなナビゲーション パスと状態をモデル化する「状態フロー グラフ」を動的に構築するメソッドに基づく Ajax クローラーです。Crawljax は Java で書かれており、BSD ライセンスに基づいてリリースされています。

誰も機能するコマンドをコピー&ペーストしなかったという理由だけで...やっています ...10年後。:D

wget --mirror --convert-links --adjust-extension --page-requisites \
--no-parent http://example.org

それは私にとって魔法のようにうまくいきました。

Web サーバーを CD に焼かなければ、AJAX リクエストなどを処理することはできません。すでに不可能だとおっしゃっていることは理解しています。

ウィゲット サイトをダウンロードします (「再帰的」には -r パラメーターを使用します)。ただし、レポートなどの動的コンテンツは当然正しく動作せず、単一のスナップショットしか取得されません。

最終的に Web サーバーから実行する必要がある場合は、以下を参照するとよいでしょう。

ServerToGo

これにより、mysql/php/apache サポートを備えた WAMPP スタックを CD から実行できます。データベースは起動時に現在のユーザーの一時ディレクトリにコピーされ、ユーザーが何もインストールしなくても完全に実行できます。

ライセンス: CC-BY-SA帰属
所属していません StackOverflow
scroll top