Arrêt de l'indexation Google

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

Question

Y at-il un moyen d'arrêter Google d'indexer un site?

La solution

robots.txt

User-agent: *
Disallow: /

va bloquer tous les robots de recherche de l'indexation.

Pour plus d'informations, voir: http://www.google.com/support/webmasters /bin/answer.py?hl=en&answer=40360

Autres conseils

Je dois ajouter ma réponse ici, comme réponse acceptée n'a pas vraiment toucher le problème correctement. Rappelez-vous aussi que la prévention de Google de crawling ne signifie pas que vous pouvez garder votre contenu privé.

Ma réponse est basée sur quelques sources: https: // développeurs. google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site / webmasterhelpforum / fr / faq - Crawling - indexation --- classement

contrôles de fichiers robots.txt ramper, mais pas l'indexation! Ces deux actions sont complètement différentes, effectuées séparément. Certaines pages peuvent être explorées, mais non indexé, et certains peuvent même être indexés mais jamais rampé . Le lien vers la page non explorée peut exister sur d'autres sites qui feront Google indexeur de le suivre, et essayer d'indexer.

La question est sur l'indexation qui est collecte de données sur la page de sorte qu'il peut être disponible à travers les résultats de recherche. Il peut être bloqué en ajoutant la balise meta:

<meta name="robots" content="noindex" />

ou l'ajout d'en-tête HTTP pour réponse:

X-Robots-Tag: noindex

Si la question porte sur l'exploration puis vous pouvez bien sûr créer un fichier robots.txt et de mettre les lignes suivantes:

User-agent: *
Disallow: /

Crawling est une action effectuée pour recueillir des informations sur la structure d'un site Web spécifique. Par exemple. vous avez ajouté le site via Google Webmaster Tools. Crawler prendre sur le compte, et de visiter votre site Web, la recherche de robots.txt. Si elle ne trouve pas, il considèrera qu'il peut ramper quoi que ce soit (il est très important d'avoir le fichier sitemap.xml ainsi, pour aider dans cette opération, et préciser les priorités et définir les fréquences de changement). Si elle trouve le fichier, il suivra les règles. Après succès en rampant, il sera à un certain indexation d'exécution de points pour les pages rampé, mais vous ne pouvez pas dire quand ...

Important :. Tout cela signifie que votre page peut être affichée dans les résultats de recherche Google, quel que soit robots.txt

J'espère au moins certains utilisateurs liront cette réponse, et ont clairement, comme il est essentiel de savoir ce qui se passe réellement.

Vous pouvez désactiver ce serveur large en ajoutant le paramètre ci-dessous dans le monde en apache ou les conf mêmes paramètres peuvent être utilisés dans vhost pour le désactiver pour vhost particulier seulement.

Jeu d'en-tête X-Robots-Tag "noindex, nofollow"

Une fois ceci fait, vous pouvez le tester en vérifiant les en-têtes apache retourné.

boucle -I staging.mywebsite.com HTTP / 1.1 302 Trouvé Date: Sam 26 Nov 2016 22:36:33 GMT Serveur: Apache / 2.4.18 (Ubuntu) Lieu: / pages / X-Robots-Tag: noindex, nofollow Content-Type: text / html; charset = UTF-8

Il y a plusieurs façons d'arrêter robots d'exploration, y compris Google pour arrêter exploration et l'indexation de votre site Web.

Au niveau du serveur par tête

Header set X-Robots-Tag "noindex, nofollow"

Au niveau du domaine racine par fichier robots.txt

User-agent: *
Disallow: /

Au niveau de la page par balise meta robots

<meta name="robots" content="nofollow" />

Cependant, je dois dire que si votre site est obsolète et non pages / urls existant alors vous devriez attendre quelque temps Google sera automatiquement désindexer ces urls dans l'exploration suivante - lire https://support.google.com/webmasters/answer/1663419?hl=en

Gardez à l'esprit que le robot d'exploration de Microsoft pour Bing, malgré leur demande d'obéir robots.txt, ne le font pas toujours.

Nos statistiques de serveur indiquent qu'ils ont un certain nombre d'adresses IP qui exécutent robots d'exploration qui ne respectent pas robots.txt ainsi qu'un certain nombre de ceux qui le font.

J'utilise une simple page ASPX aux résultats relais de google à mon navigateur en utilisant un faux cookie Préf qui obtient 100 résultats à la fois et je ne voulais pas Google pour voir cette page de relais pour que je vérifie l'adresse IP et si elle commence par 66,249 alors je fais simplement une redirection.

Cliquez sur mon nom si vous appreciez la vie privée et souhaitez obtenir une copie.

une autre astuce que j'utilise est d'avoir un javascript qui appelle une page pour définir un drapeau en session parce que la plupart (pas tous) web-bots ne vous savez pas exécuter le javascript il est donc un Brower avec se javascript off ou est plus likly un bot.

Vous pouvez également ajouter les meta robots de cette façon:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

Et une autre couche supplémentaire est de modifier .htaccess, mais vous devez le vérifier en profondeur.

utiliser une balise meta nofollow:

<meta name="robots" content="nofollow" />

Pour spécifier nofollow au niveau de lien, ajoutez l'attribut rel avec la valeur nofollow le lien:

<a href="example.html" rel="nofollow" />

Y at-il un moyen d'arrêter Google d'indexer un site?

Pour arrêter Google de ramper suffit d'ajouter la balise meta suivante à la head de chaque page:

<meta name="googlebot" content="noindex, nofollow">

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow