Webzinc .NET、画面スクレイピング、.NET 用の Web オートメーション ライブラリに代わる無料の代替手段を探しています [終了]
-
21-09-2019 - |
質問
解決
ロボットの構築はそれほど難しくなく、そのための一般的なアルゴリズムを説明した本がたくさんあります (単純に Google 検索すると、多数のアルゴリズムが表示されます)。
.NET の観点から見た要点は、再帰的に次のようにすることです。
ページのダウンロード - これは、
HttpWebRequest
/HttpWebResponse
, 、 またはWebClient
クラス。また、新しいものも使用できます CodePlex の WCF Web API, 、 これは 広大な 上記の改良点は、特に REST コンテンツの生成/消費を目的としており、機能します。 素晴らしい スパイダリング目的 (主に拡張性のため)ダウンロードしたコンテンツを解析する - I 非常に を勧めます HTML アジリティ パック 同様に フィズラー HTML Agility Pack の拡張子。Html Agility Pack は不正な HTML を処理し、XPath (またはそのサブセット) を使用して HTML 要素をクエリできるようにします。さらに、fizzler を使用すると、 CSSセレクター ご存知であれば jQueryでそれらを使用する.
構造化された形式の HTML を取得したら、その構造内で関連するコンテンツをスキャンし、処理します。
外部リンクの構造化フォーマットをスキャンし、キューに入れて処理します (アプリに必要な制約に反して、Web 全体のインデックスを作成するわけではありませんよね?)。
キュー内の次のアイテムを取得し、プロセスを再度繰り返します。
所属していません StackOverflow