Nicht imstande, eine Internet-Seite von robots.txt blockiert zu finden [geschlossen]

https://stackoverflow.com/questions/1009686

06-07-2019
|

Frage

Problem: , um Antworten und Übungen von Vorlesungen in Mathematik an der Uni zu finden. Helsinki

Praktische Probleme

eine Liste von Websites mit .com zu machen, die in robots.txt

Disallow

eine Liste von Websites machen an (1), die Dateien mit * .pdf enthält
eine Liste von Websites an (2) zu machen, die das Wort "analyysi" in pdf-Dateien

Vorschläge für praktische Probleme

Problem 3: einen Compiler, um die Daten aus PDF-Dateien kratzt

Fragen

Wie können Sie suchen .com -sites davon registriert?
Wie würden Sie die praktischen Probleme 1 & 2 von Pythons defaultdict und BeautifulSoap lösen?

Lösung

Ihre Fragen sind fehlerhaft.

In Bezug auf (2), können Sie die fehlerhafte Annahme machen, dass Sie alle PDF-Dateien auf einem Webserver finden. Dies ist nicht möglich, aus mehreren Gründen. Der erste Grund ist, dass nicht alle Dokumente Bezug genommen werden kann. Der zweite Grund ist, dass selbst wenn sie referenziert werden, die Referenz selbst unsichtbar sein kann. Schließlich gibt es PDF-Ressourcen, die im laufenden Betrieb erzeugt werden. Das heißt, sie existieren nicht, bis Sie sie fragen. Und da sie auf Ihrer Eingabe abhängen, gibt es eine unendliche Menge von ihnen.

Frage 3 ist defekt für so ziemlich die gleichen Gründe. Insbesondere kann die erzeugte PDF enthält das Wort „analyysi“ nur, wenn Sie es in der Abfrage verwendet. Z.B. http://example.com/makePDF.cgi?analyysi

Andere Tipps

Ich versuche, jede Web-Seite im Internet zu finden, die eine PDF-Datei hat, die das Wort „Analyysi“
hat

Nicht eine Antwort auf Ihre Frage, aber:. Bitte respektieren Sie den Wunsch der Website Eigentümer nicht indiziert werden

Wenn ich Ihre Anforderungen verstehen, dann würden Sie im Wesentlichen haben jede mögliche Seite, um Spinne zu sehen, welche (s) Ihren Kriterien entsprechen. Ich sehe keine schnellere oder effizientere Lösung, unabhängig davon, welche Werkzeuge, die Sie verwenden.

Wenn ich Dich richtig verstehe, dann sehe ich nicht, wie dies möglich ist, ohne, wie bereits erwähnt, das gesamte Internet zu scannen. Sie suchen Seiten im Internet, die nicht auf Google sind? Es gibt keine Datenbank jeder Seite im Netz, und wenn sie von einer Suchmaschine indiziert sind oder nicht ...

Sie würden buchstäblich zu indizieren müssen das gesamte Web und dann wenn jede Website gehen und überprüfen, ob sie auf Google sind.

Ich bin auch verwirrt, wenn diese in einer Website bezieht oder die Bahn, da Ihre Frage scheint zwischen den beiden zu wechseln.

Haben Sie meinen, dass Sie Ihre Vorträge auf einer Web-Seite Ihrer Universität Intranet haben und dass Sie möchten in der Lage sein, auf diese Seite zuzugreifen von außerhalb der Universität Intranet?

Ich gehe davon aus, dass, um Ihre Uni-Intranet zugreifen, die Sie ein Passwort eingeben müssen, und dass Google nicht indiziert die Intranetseiten des Uni -., Die die Natur eines Intranets ist

Wenn alle oben genannten Annahmen richtig sind, dann müssen Sie einfach Ihre PDF-Dateien auf einer Website außerhalb Ihrer Universität Intranet hosten. Einfachste Weg ist, einen Blog zu starten (keine Kosten beteiligt und sehr einfach und schnell zu tun) und dann posten Sie Ihre PDF-Dateien gibt.

Google wird dann Ihre Seiten-Index und auch „kratzen Daten“ aus dem PDF-Dateien wie Sie es nennen, was bedeutet, dass der Text in PDF-Dateien durchsuchbar sein.

I Umriss:

1. Law

„Das Problem kommt mit diesem Gesetz durchzusetzen! Grundsätzlich ist es leicht, in der Praxis ist es teuer!“ Quelle

" Es gibt kein Gesetz, das besagt, dass /robots.txt befolgt werden muss, noch stellt es einen verbindlichen Vertrag zwischen Website-Eigentümer und Benutzer, und mit a / < em> robots.txt können in Rechtsfällen relevant sein. “ Quelle

2. Praxis

disallow filetype:txt

3. Theoretisch möglich?

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow