質問
JavaアプリケーションからいくつかのWebサイトを反映する必要があります。私はこの仕事をするためにオープンソースのJavaライブラリを探していましたが、適切なものは見つかりませんでした。
Webサイト全体を取得するためのJavaに優しいツールについて誰もが知っていますか、それとも私のプログラムからexec Wgetに固執する必要がありますか?
どうもありがとう。
解決
クローラー/スパイダーをお勧めします。 志望者 と Sperowider Apache httpclient lib(私のお気に入りのhttplib)を使用し、次のリンクをサイトにcrawlします。彼らはそうだからです OS ソフトウェアに統合できるはずです。彼らは現在維持されていませんが、 apache httpclient Libは、Javaに独自のミラーリングツールを書きたい場合に開始するのに適した場所です。
他のヒント
この種のライブラリで私が見つけた最大の問題は、CSSの解析のサポートがないことでした。そのため、ウェブサイトをミラーリングするときにインポートされたスタイルシート、背景画像などもダウンロードされます。
Wgetは(少なくとも最近のバージョンでは)これをサポートしており、Javaからこのプログラムを実行するのは非常にクリーンなソリューションではありませんが、最初に試して、それがあなたのニーズに合っているかどうかを確認します。
所属していません StackOverflow