Pregunta

Decir que tengo un sitio en http://example.com.Realmente me gustaría que permite a los robots para ver la página de inicio, pero cualquier otra página que bloquea como es inútil a la araña.En otras palabras

http://example.com & http://example.com/ debe ser permitido, pero http://example.com/anything y http://example.com/someendpoint.aspx debe ser bloqueado.

Además sería genial si puedo permitir ciertas cadenas de consulta para la pasarela a la página de inicio:http://example.com?okparam=true

pero no http://example.com?anythingbutokparam=true

¿Fue útil?

Solución

Así que después de algunas investigaciones, aquí es lo que he encontrado una solución aceptable por parte de los principales proveedores de búsqueda: google , yahoo msn & (pude encontrar un validador de aquí) :

User-Agent: *
Disallow: /*
Allow: /?okparam=
Allow: /$

El truco es usar el $ para marcar el final de la URL.

Otros consejos

Google Webmaster Tools informe que no permitir siempre tiene prioridad sobre permitir, así que no hay manera fácil de hacer esto en un robots.txt archivo.

Usted puede lograr esto por poner un noindex,nofollow META etiqueta en el código HTML de cada página, pero la página de inicio.

Basic robots.txt:

Disallow: /subdir/

No creo que usted puede crear una expresión diciendo: 'todo, pero la raíz', usted tiene que llenar todos los sub-directorios.

La cadena de consulta limitación no es posible también desde robots.txt.Tienes que hacerlo en el fondo (código de la sección de procesamiento), o tal vez con el servidor de reescritura-reglas.

Disallow: *
Allow: index.ext

Si recuerdo correctamente, la segunda cláusula prevalecerá la primera.

Hasta donde yo sé, no todas las orugas de apoyo Permitir la etiqueta.Una posible solución podría ser poner todo a excepción de la página de inicio en otra carpeta y rechazando esa carpeta.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top