wgetを使用して、任意のファイルが含まれるディレクトリを再帰的にフェッチする
質問
いくつかの設定ファイルを保存するWebディレクトリがあります。 wgetを使用してこれらのファイルをプルダウンし、現在の構造を維持したいと思います。たとえば、リモートディレクトリは次のようになります。
http://mysite.com/configs/.vim/
.vimは複数のファイルとディレクトリを保持します。 wgetを使用して、クライアントでそれを複製したいと思います。これを行うためのwgetフラグの適切なコンボを見つけることができないようです。アイデアはありますか?
解決
-r <に加えて、
-np
/ -no-parent
オプションを wget
に渡す必要があります/ code> / -recursive
、もちろん)、それ以外の場合は、私のサイトのディレクトリインデックスにある親ディレクトリへのリンクをたどります。したがって、コマンドは次のようになります。
wget --recursive --no-parent http://example.com/configs/.vim/
自動生成された index.html
ファイルのダウンロードを回避するには、 -R
/ -reject
オプションを使用します。
wget -r -np -R "index.html*" http://example.com/configs/.vim/
他のヒント
ディレクトリを再帰的にダウンロードするには、index.html *ファイルを拒否し、ホスト名、親ディレクトリ、およびディレクトリ構造全体なしでダウンロードします。
wget -r -nH --cut-dirs=2 --no-parent --reject="index.html*" http://mysite.com/dir1/dir2/data
同様の問題を抱えている他の人のために。 Wgetは robots.txt
に従いますが、サイトを取得できない場合があります。心配する必要はありません。オフにできます:
wget -e robots=off http://www.example.com/
http://www.gnu.org/software/wget/manual/html_node /Robot-Exclusion.html
-m(ミラー)フラグを使用する必要があります。これは、タイムスタンプを混乱させず、無期限に再帰するように注意します。
wget -m http://example.com/configs/.vim/
このスレッドで他の人が言及したポイントを追加すると、次のようになります。
wget -m -e robots=off --no-parent http://example.com/configs/.vim/
これは、サーバーのディレクトリからファイルをダウンロードするために機能した完全なwgetコマンドです( robots.txt
を無視):
wget -e robots=off --cut-dirs=3 --user-agent=Mozilla/5.0 --reject="index.html*" --no-parent --recursive --relative --level=1 --no-directories http://www.example.com/archive/example/5.3.0/
-no-parent
が役に立たない場合は、-include
オプションを使用できます。
ディレクトリ構造:
http://<host>/downloads/good
http://<host>/downloads/bad
そして、 downloads / good
をダウンロードしますが、 downloads / bad
ディレクトリはダウンロードしません:
wget --include downloads/good --mirror --execute robots=off --no-host-directories --cut-dirs=1 --reject="index.html*" --continue http://<host>/downloads/good
wget -r http://mysite.com/configs/.vim/
私のために働く。
おそらく、それを妨害している.wgetrcがありますか?
ユーザー名とパスワードを使用してディレクトリを再帰的に取得するには、次のコマンドを使用します。
wget -r --user=(put username here) --password='(put password here)' --no-parent http://example.com/
必要なのは2つのフラグだけです。1つは再帰のための&quot; -r&quot;
と、&quot;-no-parent&quot;
(または -np
) '。'
および&quot; ..&quot;
に入らないようにします。このように:
wget -r --no-parent http://example.com/configs/.vim/
それだけです。次のローカルツリーにダウンロードされます: ./ example.com/configs/.vim
。
ただし、最初の2つのディレクトリが必要ない場合は、以前の返信で提案されているように、追加フラグ-cut-dirs = 2
を使用します。
wget -r --no-parent --cut-dirs = 2 http://example.com/configs/.vim/
そして、ファイルツリーを ./。vim /
実際、 wget manual 、セクション4.3の終わりに向けて非常にきれいな例があります。
-rを追加するだけで実行できるはずです
wget -r http://stackoverflow.com/
Wget 1.18の方がうまく機能する場合があります。たとえば、バージョン1.12のバグに悩まされました...
wget --recursive (...)
...すべてのファイルではなくindex.htmlのみを取得します。
回避策は、301のリダイレクトに気付き、新しい場所を試してみることでした&#8212;新しいURLを指定すると、wgetはディレクトリ内のすべてのファイルを取得しました。
このバージョンは再帰的にダウンロードし、親ディレクトリを作成しません。
wgetod() {
NSLASH="$(echo "$1" | perl -pe 's|.*://[^/]+(.*?)/?$|\1|' | grep -o / | wc -l)"
NCUT=$((NSLASH > 0 ? NSLASH-1 : 0))
wget -r -nH --user-agent=Mozilla/5.0 --cut-dirs=$NCUT --no-parent --reject="index.html*" "$1"
}
使用法:
-
〜/ .bashrc
に追加するか、ターミナルに貼り付けます -
wgetod&quot; http://example.com/x/"