Qualcuno ha ottenuto un codice C # per analizzare robots.txt e valutare gli URL contro di esso

StackOverflow https://stackoverflow.com/questions/633479

  •  10-07-2019
  •  | 
  •  

Domanda

Breve domanda:

Qualcuno ha ottenuto un codice C # per analizzare robots.txt e quindi valutare gli URL contro di esso, quindi vedere se verrebbero esclusi o meno.

Domanda lunga:

Ho creato una sitemap per un nuovo sito che non è ancora stato rilasciato su Google. La sitemap ha due modalità, una modalità utente (come una sitemap tradizionale) e una modalità "admin".

La modalità di amministrazione mostrerà tutti i possibili URL sul sito, inclusi URL di inserimento personalizzati o URL per un partner esterno specifico - come example.com/oprah per chiunque veda il nostro sito su Oprah. Voglio tracciare i collegamenti pubblicati da qualche altra parte rispetto a un foglio di calcolo Excel.

Dovrei presumere che qualcuno possa pubblicare il link / oprah sul proprio blog o da qualche parte. In realtà non vogliamo che questo "sito mini-oprah" venga indicizzato perché si tradurrebbe in utenti non oprah in grado di trovare le offerte speciali di Oprah.

Quindi, contemporaneamente alla creazione della Sitemap, ho anche aggiunto URL come / oprah per essere esclusi dal nostro file robots.txt .

Quindi (e questa è la vera domanda) ho pensato "non sarebbe bello poter mostrare sulla Sitemap se i file sono indicizzati e visibili ai robot". Sarebbe abbastanza semplice: basta analizzare robots.txt e quindi valutare un collegamento rispetto ad esso.

Tuttavia questa è una "caratteristica bonus" e di certo non ho tempo di smettere di scriverla (anche se probabilmente non è così complessa) - quindi mi chiedevo se qualcuno avesse già scritto un codice per analizzare i robot. txt?

È stato utile?

Soluzione

Odio dirlo, ma basta google " C # robots.txt parser " e fai clic sul primo colpo. È un un articolo CodeProject su un semplice motore di ricerca implementato in C # chiamato " Searcharoo " e contiene una classe Searcharoo.Indexer.RobotsTxt, descritta come:

  
      
  1. Cerca e, se presente, scarica e analizza il file robots.txt sul sito
  2.   
  3. Fornisci un'interfaccia per Spider per controllare ogni Url rispetto alle regole robots.txt
  4.   

Altri suggerimenti

Mi piace il codice e i test in http://code.google.com/p/robotstxt/ lo consiglierei come punto di partenza.

Un po 'di auto-promozione, ma dato che avevo bisogno di un analizzatore analogo e non riuscivo a trovare nulla di cui ero felice, ho creato il mio:

http://nrobots.codeplex.com/

Gradirei qualsiasi feedback

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top