最も最適な方法を格納クローラーか

https://stackoverflow.com/questions/1729427

19-09-2019
|

質問

私は現在、書面、webクローラーを使用してpythonの枠組み scrapy).
最近あったかを一時停止/再開。
の液実のものなど、基本的には、店舗のリンクが大きな問題となってい予定として処理'ってますね。
このように、私が取得した者のリンクについて(その他にもエクスペディアのキャンセルを格納だけではなURLの奥行き値は、ドメインのリンクに帰属しなど）が再開をスパイダーおよびこれまでにも作業性に優れています。

今、私は使用しているmysqlのテーブルへの対応ストレージ、主に高速プロトタイピング

現在もっと知りたいかを最適化でき、からだと思いデータベースなどのオプションもございます。による最適化というのは、使用し、非常にシンプルで軽いシステムはとてもきれいに対応できる大量のデータ記述ショ

今では処理できるようにあなたの隣に這いた数十人のドメイン、収納数千のリンクは、エコノミープランです。

よろしくお願のためのご提案

解決

インターネットには想像もつかなの継続のものが一般的だけで追加してログは、完全に順次アクセスパターンを最小限にディスクとは、通常の大部分の時間を費保管します。を再起動、再読み込みには、ログの再構築のメモリ構造だったものとしていた追加のログインします。

お客様の特定の申請がさらに最適化されていないが必要である100%の信頼性--だ書き数の応募により突然の衝突ああ、こちらをクリックして下さいんでしょう。なので、ログファイルをバッファとのである必要はありません回答お願為にはfsync投稿内容の投稿者.

思索の構造にも適応でゆったりとメモリだけを数十サイトではありませんたまちゃんとセットですべてのUrlは、必要なブルまたは"パッケージ)ならなかったなければならなくなるかもしれまメモリだけ設定の最近の作品を定期的にダンプする設定ディスクなどを融合させたエディトリアルデザインへ Berkeley DB ファイル);がいません言の詳細はこれらのオプションでは表示されませんが必要です。

他のヒント

あなたは面白いかもしれPyCon 2009年の話がありました、精密ビルGribbleによってのデータ解析アプリケーションの状態の回復と再起動します。

あなたのアプリケーションの状態を保存するためのもう一つの簡単な方法は、シリアル化するためにピクルスに使用することとすることができますディスクへのアプリケーションの状態。

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow