Robots dinámicos.txt

https://stackoverflow.com/questions/43971

09-06-2019
|

Pregunta

Digamos que tengo un sitio web para alojar contenido generado por la comunidad dirigido a un conjunto muy específico de usuarios.Ahora, digamos que con el fin de fomentar una mejor comunidad, tengo un área fuera de tema donde los miembros de la comunidad pueden publicar o hablar sobre lo que quieran, independientemente del tema principal del sitio.

Ahora yo desear la mayor parte del contenido será indexado por Google.La excepción notable es el contenido fuera de tema.Cada hilo tiene su propia página, pero todos los hilos están listados en la misma carpeta, por lo que no puedo simplemente excluir los motores de búsqueda de una carpeta en algún lugar.Tiene que ser por página.Un archivo robots.txt tradicional se volvería enorme, entonces, ¿de qué otra manera podría lograr esto?

Solución

Esto funcionará para todos los motores de búsqueda con buen comportamiento, simplemente agréguelo al <head>:

<meta name="robots" content="noindex, nofollow" />

Otros consejos

Si uso Apache, usaría mod-rewrite para crear un alias de robots.txt en un script que podría generar dinámicamente el contenido necesario.

Editar:Si usa IIS, puede usar ISAPReescribir hacer lo mismo.

De manera similar a la sugerencia de @James Marshall: en ASP.NET puede usar un HttpHandler para redirigir las llamadas a robots.txt a un script que generó el contenido.

Puede implementarlo sustituyendo robots.txt por un script dinámico que genere el resultado.Con Apache, podrías crear una regla .htaccess simple para lograrlo.

RewriteRule  ^robots\.txt$ /robots.php [NC,L]

Solo para ese hilo, asegúrese de que su encabezado contenga una metaetiqueta noindex.Esa es una forma más de decirle a los motores de búsqueda que no rastreen su página, aparte del bloqueo en robots.txt.

Solo tenga en cuenta que no permitir el archivo robots.txt NO impedirá que Google indexe páginas que tengan enlaces de sitios externos, todo lo que hace es evitar el rastreo interno.Ver http://www.webmasterworld.com/google/4490125.htm o http://www.stonetemple.com/articles/interview-matt-cutts.shtml.

Puede impedir que los motores de búsqueda lean o indexen su contenido restringiendo las metaetiquetas del robot.De esta manera, Spider considerará sus instrucciones e indexará sólo las páginas que desee.

bloquear página web dinámica mediante robots.txt use este código

Agente de usuario:*

Rechazar:/setnewsprefs?

Rechazar:/index.html?

Rechazar:/?

Permitir:/?hl=

Rechazar:/?hl=*&

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow