Qualcuno ha ottenuto un codice C # per analizzare robots.txt e valutare gli URL contro di esso
-
10-07-2019 - |
Domanda
Breve domanda:
Qualcuno ha ottenuto un codice C # per analizzare robots.txt e quindi valutare gli URL contro di esso, quindi vedere se verrebbero esclusi o meno.
Domanda lunga:
Ho creato una sitemap per un nuovo sito che non è ancora stato rilasciato su Google. La sitemap ha due modalità, una modalità utente (come una sitemap tradizionale) e una modalità "admin".
La modalità di amministrazione mostrerà tutti i possibili URL sul sito, inclusi URL di inserimento personalizzati o URL per un partner esterno specifico - come example.com/oprah
per chiunque veda il nostro sito su Oprah. Voglio tracciare i collegamenti pubblicati da qualche altra parte rispetto a un foglio di calcolo Excel.
Dovrei presumere che qualcuno possa pubblicare il link / oprah
sul proprio blog o da qualche parte. In realtà non vogliamo che questo "sito mini-oprah" venga indicizzato perché si tradurrebbe in utenti non oprah in grado di trovare le offerte speciali di Oprah.
Quindi, contemporaneamente alla creazione della Sitemap, ho anche aggiunto URL come / oprah
per essere esclusi dal nostro file robots.txt
.
Quindi (e questa è la vera domanda) ho pensato "non sarebbe bello poter mostrare sulla Sitemap se i file sono indicizzati e visibili ai robot". Sarebbe abbastanza semplice: basta analizzare robots.txt e quindi valutare un collegamento rispetto ad esso.
Tuttavia questa è una "caratteristica bonus" e di certo non ho tempo di smettere di scriverla (anche se probabilmente non è così complessa) - quindi mi chiedevo se qualcuno avesse già scritto un codice per analizzare i robot. txt?
Soluzione
Odio dirlo, ma basta google " C # robots.txt parser " e fai clic sul primo colpo. È un un articolo CodeProject su un semplice motore di ricerca implementato in C # chiamato " Searcharoo " e contiene una classe Searcharoo.Indexer.RobotsTxt, descritta come:
- Cerca e, se presente, scarica e analizza il file robots.txt sul sito
- Fornisci un'interfaccia per Spider per controllare ogni Url rispetto alle regole robots.txt
Altri suggerimenti
Mi piace il codice e i test in http://code.google.com/p/robotstxt/ lo consiglierei come punto di partenza.
Un po 'di auto-promozione, ma dato che avevo bisogno di un analizzatore analogo e non riuscivo a trovare nulla di cui ero felice, ho creato il mio:
Gradirei qualsiasi feedback