Impossible de trouver une page Internet bloquée par robots.txt [fermé]

https://stackoverflow.com/questions/1009686

06-07-2019
|

Question

Problème: : trouver des réponses et des exercices de conférences en mathématiques à Uni. Helsinki

Problèmes pratiques

pour créer une liste de sites avec .com qui contient Disallow dans le fichier robots.txt
faire une liste de sites en (1) contenant des fichiers avec * .pdf
faire une liste de sites en (2) contenant le mot "analyysi" en fichiers pdf

Suggestions de problèmes pratiques

Problème 3: créer un compilateur qui extrait des données de fichiers pdf

Questions

Comment pouvez-vous effectuer une recherche sur les sites .com enregistrés?
Comment régleriez-vous les problèmes pratiques 1 & amp; 2 par défaut de Python et BeautifulSoap?

La solution

Vos questions sont défectueuses.

En ce qui concerne le point (2), vous faites l'hypothèse erronée que vous pouvez trouver tous les fichiers PDF sur un serveur Web. Ce n'est pas possible, pour plusieurs raisons. La première raison est que tous les documents ne peuvent pas être référencés. La deuxième raison est que même si elles sont référencées, la référence elle-même peut être invisible pour vous. Enfin, il existe des ressources PDF générées à la volée. Cela signifie qu'ils n'existent pas jusqu'à ce que vous les demandiez. Et comme ils dépendent de votre apport, il y en a une quantité infinie.

La question 3 est défectueuse pour les mêmes raisons. En particulier, le fichier PDF généré peut contenir le mot "analyysi". seulement si vous l'avez utilisé dans la requête. Par exemple. http://example.com/makePDF.cgi?analyysi

Autres conseils

J'essaie de trouver sur chaque site Web un fichier pdf contenant le mot "Analyysi"
.

Ce n'est pas une réponse à votre question, mais: VEUILLEZ respecter le souhait du propriétaire du site de ne PAS être indexé.

Si je comprends vos exigences, il vous faudra essentiellement explorer tous les sites possibles afin de déterminer le ou les critères qui correspondent à vos critères. Je ne vois pas de solution plus rapide ni plus efficace, quels que soient les outils que vous utilisez.

Si je vous comprends bien, je ne vois pas comment cela est possible sans, comme on l'a déjà mentionné, analyser tout l'internet. Vous recherchez des pages sur Internet qui ne sont pas sur Google? Il n’existe pas de base de données de tous les sites sur le net et qu’ils soient indexés ou non par un moteur de recherche ...

Vous devez littéralement indexer l'intégralité du Web, puis consulter chaque site et vérifier s'il est sur Google.

Je suis également confus si cela concerne un site ou le Web, car votre question semble basculer entre les deux.

Voulez-vous dire que vos conférences se trouvent sur une page Web de l'intranet de votre université et que vous souhaitez pouvoir accéder à cette page depuis l'extérieur de l'intranet de votre université?

Je suppose que pour accéder à l'intranet de votre université, vous devez entrer un mot de passe et que Google n'indexe aucune des pages intranet de cet univers, qui constitue la nature même d'un intranet.

Si toutes les hypothèses ci-dessus sont correctes, il vous suffit d'héberger vos fichiers PDF sur un site Web situé en dehors de l'intranet de votre université. Le moyen le plus simple est de commencer un blog (sans frais et très facile et rapide à faire), puis de poster vos fichiers pdf.

Google indexera ensuite vos pages ainsi que "Racler les données". à partir de vos pdf comme vous le dites, ce qui signifie que le texte de vos fichiers pdf sera interrogeable.

Je décris:

1. Loi

"Le problème vient de l'application de cette loi! En principe, c’est facile, en pratique c’est cher! & Quot; source

" Aucune loi ne stipule que /robots.txt doit être respecté , ni ne constitue un contrat contraignant entre le propriétaire du site et l'utilisateur, mais ayant un / robots.txt peut être utile dans les affaires judiciaires. " source

2. Pratique

disallow filetype:txt

3. Théoriquement possible?

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow