Qualcuno ha ottenuto un codice C # per analizzare robots.txt e valutare gli URL contro di esso

https://stackoverflow.com/questions/633479

10-07-2019
|

Domanda

Breve domanda:

Qualcuno ha ottenuto un codice C # per analizzare robots.txt e quindi valutare gli URL contro di esso, quindi vedere se verrebbero esclusi o meno.

Domanda lunga:

Ho creato una sitemap per un nuovo sito che non è ancora stato rilasciato su Google. La sitemap ha due modalità, una modalità utente (come una sitemap tradizionale) e una modalità "admin".

La modalità di amministrazione mostrerà tutti i possibili URL sul sito, inclusi URL di inserimento personalizzati o URL per un partner esterno specifico - come example.com/oprah per chiunque veda il nostro sito su Oprah. Voglio tracciare i collegamenti pubblicati da qualche altra parte rispetto a un foglio di calcolo Excel.

Dovrei presumere che qualcuno possa pubblicare il link / oprah sul proprio blog o da qualche parte. In realtà non vogliamo che questo "sito mini-oprah" venga indicizzato perché si tradurrebbe in utenti non oprah in grado di trovare le offerte speciali di Oprah.

Quindi, contemporaneamente alla creazione della Sitemap, ho anche aggiunto URL come / oprah per essere esclusi dal nostro file robots.txt .

Quindi (e questa è la vera domanda) ho pensato "non sarebbe bello poter mostrare sulla Sitemap se i file sono indicizzati e visibili ai robot". Sarebbe abbastanza semplice: basta analizzare robots.txt e quindi valutare un collegamento rispetto ad esso.

Tuttavia questa è una "caratteristica bonus" e di certo non ho tempo di smettere di scriverla (anche se probabilmente non è così complessa) - quindi mi chiedevo se qualcuno avesse già scritto un codice per analizzare i robot. txt?

Soluzione

Odio dirlo, ma basta google " C # robots.txt parser " e fai clic sul primo colpo. È un un articolo CodeProject su un semplice motore di ricerca implementato in C # chiamato " Searcharoo " e contiene una classe Searcharoo.Indexer.RobotsTxt, descritta come:

Cerca e, se presente, scarica e analizza il file robots.txt sul sito

Fornisci un'interfaccia per Spider per controllare ogni Url rispetto alle regole robots.txt

Altri suggerimenti

Mi piace il codice e i test in http://code.google.com/p/robotstxt/ lo consiglierei come punto di partenza.

Un po 'di auto-promozione, ma dato che avevo bisogno di un analizzatore analogo e non riuscivo a trovare nulla di cui ero felice, ho creato il mio:

http://nrobots.codeplex.com/

Gradirei qualsiasi feedback

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow