No se puede encontrar una página de Internet bloqueada por robots.txt [cerrado]

https://stackoverflow.com/questions/1009686

06-07-2019
|

Pregunta

Problema: para encontrar respuestas y ejercicios de conferencias en Matemáticas en la Uni. Helsinki

Problemas prácticos

para hacer una lista de sitios con .com que tiene Disallow en robots.txt
para hacer una lista de sitios en (1) que contienen archivos con * .pdf
para hacer una lista de sitios en (2) que contienen la palabra " analyysi " en archivos pdf

Sugerencias para problemas prácticos

Problema 3: para hacer un compilador que raspe datos de archivos pdf

Preguntas

¿Cómo puede buscar sitios .com que están registrados?
¿Cómo resolvería los problemas prácticos 1 & amp; 2 por defaultdict de Python y BeautifulSoap?

Solución

Sus preguntas son defectuosas.

Con respecto a (2), está asumiendo erróneamente que puede encontrar todos los archivos PDF en un servidor web. Esto no es posible, por múltiples razones. La primera razón es que no todos los documentos pueden ser referenciados. La segunda razón es que, incluso si están referenciados, la referencia en sí misma puede ser invisible para usted. Finalmente, hay recursos PDF que se generan sobre la marcha. Eso significa que no existen hasta que los solicite. Y dado que dependen de su entrada, hay una cantidad infinita de ellos.

La pregunta 3 es defectuosa por las mismas razones. En particular, el PDF generado puede contener la palabra '' analyysi '' solo si lo usó en la consulta. P.ej. http://example.com/makePDF.cgi?analyysi

Otros consejos

Estoy tratando de encontrar cada sitio web en Internet que tenga un archivo pdf que tenga la palabra " Analyysi "

No es una respuesta a su pregunta, pero: POR FAVOR respete el deseo del propietario del sitio de NO ser indexado.

Si entiendo sus requisitos, esencialmente tendría que explorar todos los sitios posibles para ver cuáles coinciden con sus criterios. No veo ninguna solución más rápida o más eficiente, independientemente de las herramientas que use.

Si te entiendo correctamente, entonces no veo cómo esto es posible sin, como ya se mencionó, escanear todo Internet. ¿Está buscando páginas en Internet que no están en Google? No hay una base de datos de cada sitio en la red y si están indexados por un motor de búsqueda o no ...

Literalmente necesitarías indexar toda la web y luego revisar cada sitio y verificar si están en Google.

También estoy confundido si esto se relaciona en un sitio o en la web, ya que su pregunta parece cambiar entre ambos.

¿Quiere decir que tiene sus conferencias en una página web de la intranet de su universidad y que le gustaría poder acceder a esta página desde fuera de la intranet de su universidad?

Supongo que para acceder a la intranet de su Uni debe ingresar una contraseña, y que Google no indexa ninguna de las páginas de la intranet de Uni, que es la naturaleza de una intranet.

Si todas las suposiciones anteriores son correctas, entonces simplemente necesita alojar sus archivos pdf en un sitio web fuera de la intranet de su universidad. La manera más simple es comenzar un blog (sin costo y muy fácil y rápido de hacer) y luego publicar sus archivos pdf allí.

Google indexará sus páginas y también "datos de raspado" desde su pdf como lo puso, lo que significa que se podrá buscar el texto dentro de sus archivos pdf.

Resumo:

1. Ley

" ¡El problema viene con hacer cumplir esa ley! ¡En principio es fácil, en la práctica es costoso! '' fuente

" No existe una ley que establezca que /robots.txt debe obedecerse , ni constituye un contrato vinculante entre el propietario del sitio y el usuario, pero tener un / robots.txt puede ser relevante en casos legales. " fuente

2. Practica

disallow filetype:txt

3. ¿Teóricamente posible?

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow