robots.txtを解析してURLSを評価するためのC#コードを取得した人
-
10-07-2019 - |
質問
短い質問:
robots.txtを解析し、URLSを評価するためのC#コードを取得しているユーザーがいるので、除外されるかどうかを確認します。
長い質問:
Googleにまだリリースされていない新しいサイトのサイトマップを作成しています。サイトマップには、ユーザーモード(従来のサイトマップのような)と「管理者」モードの2つのモードがあります。
管理モードでは、カスタマイズされたエントリのURLや、特定の外部パートナーのURL(Oprahでサイトを見る人の example.com/oprah
など)を含む、サイト上のすべてのURLが表示されます。公開されたリンクをExcelスプレッドシート以外の場所で追跡したい。
誰かが自分のブログまたはどこかに / oprah
リンクを公開する可能性があると想定しなければなりません。この「ミニオプラサイト」は、オプラ以外の視聴者が特別なオプラオファーを見つけることができるようになるため、実際にはインデックスに登録されません。
サイトマップの作成と同時に、 robots.txt
ファイルから除外する / oprah
などのURLも追加しました。
それから(これが実際の質問です)「ファイルがインデックス化されてロボットに表示されるかどうかをサイトマップに表示できると良いと思いませんか」と考えました。これは非常に簡単です-robots.txtを解析し、それに対してリンクを評価するだけです。
しかし、これは「ボーナス機能」であり、私は確かにそれを書いて書く時間はありません(おそらくそれほど複雑ではないと思っていたとしても)-だから誰かがロボットを解析するためのコードをすでに書いているのではないかと思っていました。 txt?
解決
それを言うのは嫌ですが、ただGoogle" C#robots.txt parser"最初のヒットをクリックします。これは C#で実装された" Searcharoo" と呼ばれる簡単な検索エンジンに関するCodeProjectの記事です。 、クラスSearcharoo.Indexer.RobotsTxtが含まれています。説明は次のとおりです。
- サイト上のrobots.txtファイルを確認し、存在する場合はダウンロードして解析します
- 各URLをrobots.txtルールと照合するためのSpiderのインターフェースを提供します
他のヒント
http://code.google.com/p/robotstxt/のコードとテストが気に入っていますは開始点として推奨します。