Domanda

Diciamo che ho un sito web per ospitare contenuti generati dalla community destinati a un gruppo molto specifico di utenti.Ora, diciamo, nell'interesse di promuovere una comunità migliore, ho un'area fuori tema in cui i membri della comunità possono pubblicare o parlare di tutto ciò che vogliono, indipendentemente dal tema principale del sito.

Adesso io Volere la maggior parte dei contenuti verrà indicizzata da Google.L'eccezione degna di nota è il contenuto fuori tema.Ogni thread ha la propria pagina, ma tutti i thread sono elencati nella stessa cartella, quindi non posso semplicemente escludere i motori di ricerca da una cartella da qualche parte.Deve essere per pagina.Un file robots.txt tradizionale diventerebbe enorme, quindi in quale altro modo potrei ottenere questo risultato?

È stato utile?

Soluzione

Funzionerà per tutti i motori di ricerca che si comportano bene, basta aggiungerlo al file <head>:

<meta name="robots" content="noindex, nofollow" />

Altri suggerimenti

Se utilizzi Apache, utilizzerei mod-rewrite per alias robots.txt in uno script in grado di generare dinamicamente il contenuto necessario.

Modificare:Se usi IIS potresti usare ISAPIriscrittura fare lo stesso.

Analogamente al suggerimento di @James Marshall: in ASP.NET è possibile utilizzare un HttpHandler per reindirizzare le chiamate a robots.txt a uno script che ha generato il contenuto.

Puoi implementarlo sostituendo robots.txt con uno script dinamico che genera l'output.Con Apache potresti creare una semplice regola .htaccess per raggiungere questo obiettivo.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Solo per quel thread, assicurati che la tua testa contenga un meta tag noindex.Questo è un altro modo per dire ai motori di ricerca di non eseguire la scansione della tua pagina oltre al blocco in robots.txt

Tieni presente solo che un disallow del file robots.txt NON impedirà a Google di indicizzare le pagine che contengono collegamenti da siti esterni, tutto ciò che fa è impedire la scansione interna.Vedere http://www.webmasterworld.com/google/4490125.htm O http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Puoi impedire ai motori di ricerca di leggere o indicizzare i tuoi contenuti limitando i meta tag robot.In questo modo, Spider prenderà in considerazione le tue istruzioni e indicizzerà solo le pagine che desideri.

blocca la pagina web dinamica con robots.txt usa questo codice


Agente utente:*

Non consentire:/setnewsprefs?

Non consentire:/indice.html?

Non consentire:/?

Permettere:/?hl=

Non consentire:/?hl=*&

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top