robots.txtを解析してURLSを評価するためのC＃コードを取得した人

https://stackoverflow.com/questions/633479

10-07-2019
|

質問

短い質問：

robots.txtを解析し、URLSを評価するためのC＃コードを取得しているユーザーがいるので、除外されるかどうかを確認します。

長い質問：

Googleにまだリリースされていない新しいサイトのサイトマップを作成しています。サイトマップには、ユーザーモード（従来のサイトマップのような）と「管理者」モードの2つのモードがあります。

管理モードでは、カスタマイズされたエントリのURLや、特定の外部パートナーのURL（Oprahでサイトを見る人の example.com/oprah など）を含む、サイト上のすべてのURLが表示されます。公開されたリンクをExcelスプレッドシート以外の場所で追跡したい。

誰かが自分のブログまたはどこかに / oprah リンクを公開する可能性があると想定しなければなりません。この「ミニオプラサイト」は、オプラ以外の視聴者が特別なオプラオファーを見つけることができるようになるため、実際にはインデックスに登録されません。

サイトマップの作成と同時に、 robots.txt ファイルから除外する / oprah などのURLも追加しました。

それから（これが実際の質問です）「ファイルがインデックス化されてロボットに表示されるかどうかをサイトマップに表示できると良いと思いませんか」と考えました。これは非常に簡単です-robots.txtを解析し、それに対してリンクを評価するだけです。

しかし、これは「ボーナス機能」であり、私は確かにそれを書いて書く時間はありません（おそらくそれほど複雑ではないと思っていたとしても）-だから誰かがロボットを解析するためのコードをすでに書いているのではないかと思っていました。 txt？

解決

それを言うのは嫌ですが、ただGoogle＆quot; C＃robots.txt parser＆quot;最初のヒットをクリックします。これは C＃で実装された＆quot; Searcharoo＆quot; と呼ばれる簡単な検索エンジンに関するCodeProjectの記事です。、クラスSearcharoo.Indexer.RobotsTxtが含まれています。説明は次のとおりです。

サイト上のrobots.txtファイルを確認し、存在する場合はダウンロードして解析します

各URLをrobots.txtルールと照合するためのSpiderのインターフェースを提供します

他のヒント

http://code.google.com/p/robotstxt/のコードとテストが気に入っていますは開始点として推奨します。

少し自己宣伝しますが、同様のパーサーが必要で、満足できるものが見つからなかったため、自分で作成しました：

http://nrobots.codeplex.com/

フィードバックが欲しい

ライセンス： CC-BY-SA と帰属

所属していません StackOverflow