Smettere di Google di indicizzare

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

Domanda

C'è un modo per fermare Google di indicizzare un sito?

Soluzione

robots.txt

User-agent: *
Disallow: /

questo bloccherà tutti i bot di ricerca di indicizzare.

Per maggiori informazioni visita: http://www.google.com/support/webmasters /bin/answer.py?hl=en&answer=40360

Altri suggerimenti

Devo aggiungere la mia risposta qui, come risposta accettata in realtà non toccare il problema in modo corretto. Anche ricordare che impedisce a Google di scansione non significa che è possibile mantenere il vostro contenuti privati.

La mia risposta si basa su poche fonti: https: // sviluppatori. google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site / webmasterhelpforum / it / faq - Crawling - indicizzazione --- classifica

controlli di file robots.txt strisciando, ma non indicizzare! Quei due sono completamente diverse azioni, eseguite separatamente. Alcune pagine possono essere sottoposti a scansione ma non indicizzati, e alcuni possono anche essere indicizzati , ma mai strisciato . Il link alla pagina non Cingolati può esistere su altri siti web, che renderà Google indicizzatore di seguirla, e cercare di indice.

domanda riguarda l'indicizzazione, che sta raccogliendo dati sulla pagina in modo che possa essere disponibile attraverso risultati di ricerca. Si può essere bloccata aggiungendo meta tag:

<meta name="robots" content="noindex" />

o l'aggiunta di un'intestazione HTTP alla risposta:

X-Robots-Tag: noindex

Se la domanda riguarda strisciando poi, naturalmente, è possibile creare file di robots.txt e mettere le seguenti linee:

User-agent: *
Disallow: /

La scansione è un'azione eseguita per raccogliere informazioni sulla struttura di un sito web specifico. Per esempio. hai aggiunto il sito attraverso Google Webmaster Tools. Crawler lo prenderà in considerazione, e visitare il vostro sito web, alla ricerca di robots.txt. Se non trova alcuna, allora si assume che sia in grado di scansionare qualsiasi cosa (è molto importante avere file di sitemap.xml pure, per aiutare in questa operazione, e specificare le priorità e definire frequenze di cambiamento). Se trova il file, seguirà le regole. Dopo il successo strisciando è a un certo punto l'indicizzazione corsa per pagine sottoposte a scansione, ma non si può dire quando ...

Importante :. Tutto questo significa che la pagina può ancora essere mostrato nei risultati di ricerca di Google, indipendentemente dalla robots.txt

Spero almeno alcuni utenti leggeranno questa risposta, e hanno chiarito, in quanto è fondamentale per sapere ciò che effettivamente accade.

È possibile disabilitare questo server vasta aggiungendo la seguente regolazione in globalmente in conf apache o gli stessi parametri possono essere utilizzati in vhost per disabilitarlo per particolari solo vhost.

Set di intestazione X-Robots-Tag "noindex, nofollow"

Una volta fatto questo potete provarlo verificando le intestazioni apache restituiti.

ricciolo -I staging.mywebsite.com HTTP / 1.1 302 Data Trovato: Sab 26 Nov 2016 22:36:33 GMT Server: Apache / 2.4.18 (Ubuntu) Location: / pagine / X-Robots-Tag: noindex, nofollow Content-Type: text / html; charset = UTF-8

Ci sono diversi modo per fermare i crawler di Google tra cui smettere di scansione e l'indicizzazione tuo sito web.

A livello di server tramite intestazione

Header set X-Robots-Tag "noindex, nofollow"

A livello di dominio principale tramite file robots.txt

User-agent: *
Disallow: /

A livello di pagina tramite meta tag robots

<meta name="robots" content="nofollow" />

Tuttavia, devo dire che se il vostro sito è obsoleto e non esistente pagine / URL allora si dovrebbe attendere per un po di Google sarà deindex automaticamente gli URL in scansione successiva - leggi https://support.google.com/webmasters/answer/1663419?hl=en

Si tenga presente che il crawler di Microsoft per Bing, nonostante la loro pretesa di obbedire robots.txt, non sempre farlo.

Le nostre statistiche del server indicare che essi hanno un numero di IP che vengono eseguiti crawler che non obbediscono robots.txt così come un certo numero di quelli che lo fanno.

Io uso una pagina aspx semplice relè risultati di Google al mio browser utilizzando un falso cookie 'Pref' che ottiene 100 risultati alla volta e non volevo Google per vedere questa pagina relè in modo posso controllare l'indirizzo IP e se inizia con 66,249 poi ho semplicemente fare un redirect.

Clicca il mio nome se ci tenete alla privacy e desidera una copia.

Un altro trucco che uso è quello di avere un po 'di javascript che chiama una pagina per impostare un flag in sessione perché la maggior parte (non tutti) web-bot non eseguire il codice JavaScript in modo da sapere che è un brower con disattivato JavaScript o è un più di likly un bot.

Inoltre è possibile aggiungere i meta robot in questo modo:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

E un altro strato supplementare è quello di modificare .htaccess, ma è necessario controllare a fondo.

utilizzare un meta tag nofollow:

<meta name="robots" content="nofollow" />

Per specificare nofollow a livello di collegamento, aggiungere l'attributo rel con il valore nofollow al link:

<a href="example.html" rel="nofollow" />

C'è un modo per fermare Google di indicizzare un sito?

Per fermare Google di eseguire la scansione è sufficiente aggiungere il seguente tag meta alla head di ogni pagina:

<meta name="googlebot" content="noindex, nofollow">

Autorizzato sotto: CC-BY-SA insieme a attribuzione

Non affiliato a StackOverflow