غير قادر على العثور على صفحة الإنترنت حظره من قبل robots.txt [مغلقة]

https://stackoverflow.com/questions/1009686

06-07-2019
|

سؤال

المشكلة: للعثور على إجابات تمارين محاضرات في الرياضيات في الجامعة.هلسنكي

المشاكل العملية

لتقديم قائمة من المواقع .com الذي Disallow في robots.txt
لتقديم قائمة من المواقع في (1) التي تحتوي على ملفات *.pdf
لتقديم قائمة من المواقع (2) التي تحتوي على كلمة "analyysi" في ملفات pdf

اقتراحات المشاكل العملية

المشكلة 3: جعل المترجم الذي الورطات البيانات من ملفات pdf

الأسئلة

كيف يمكن لك البحث .com -المواقع التي يتم تسجيلها ؟
كيف يمكنك حل المشاكل العملية 1 & 2 بواسطة بايثون defaultdict و BeautifulSoap?

المحلول

أسئلتك هي الخاطئة.

فيما يتعلق (2) ، مما يجعل الافتراض الخاطئ الذي يمكنك أن تجد جميع ملفات PDF على خادم الويب.هذا غير ممكن لأسباب متعددة.السبب الأول هو أن ليس كل الوثائق التي يمكن الرجوع إليها.والسبب الثاني هو أنه حتى إذا لم يتم الرجوع إليها ، مرجع نفسه قد تكون غير مرئية لك.وأخيرا ، هناك PDF الموارد التي يتم إنشاؤها على الطاير.وهذا يعني أنها لم تكن موجودة حتى كنت أطلب منهم.وبما أنها تعتمد على المدخلات الخاصة بك ، هناك كمية لا حصر له منهم.

السؤال 3 الخاطئ تقريبا نفس الأسباب.ولا سيما PDF التي تم إنشاؤها قد تحتوي على كلمة "analyysi" فقط إذا كنت تستخدم فإنه في الاستعلام.E. g. http://example.com/makePDF.cgi?analyysi

نصائح أخرى

أنا أحاول أن تجد كل موقع على شبكة الإنترنت يحتوي على ملف pdf الذي يحتوي على كلمة "Analyysi"

لا إجابة على سؤالك, ولكن:الرجاء احترام مالك الموقع أتمنى أن لا يكون فهرستها.

إن فهم الاحتياجات الخاصة بك ، سوف أساسا أن العنكبوت في كل موقع من أجل أن نرى أي واحد(s) تطابق المعايير الخاصة بك.أنا لا أرى أي أسرع أو أكثر الحلول كفاءة بغض النظر عن ما هي الأدوات التي تستخدمها.

إذا فهمت بشكل صحيح ثم أنا لا أرى كيف أن هذا غير ممكن من دون ، كما ذكر سابقا ، فإن مسح شبكة الإنترنت بالكامل.كنت تبحث عن صفحات على الإنترنت التي ليست على جوجل ؟ ليس هناك قاعدة بيانات كل موقع على شبكة الإنترنت إذا كان يتم فهرستها من قبل محرك البحث أم لا...

كنت حرفيا تحتاج إلى فهرس كامل ويب ثم تذهب على الرغم من كل موقع و التحقق إذا كانت على جوجل.

أنا أيضا الخلط إذا كان هذا يتعلق في موقع واحد أو شبكة الإنترنت منذ سؤالك يبدو أن التبديل بين البلدين.

هل يعني أن لديك المحاضرات الخاصة بك على صفحة ويب الخاصة بك في جامعة الداخلية التي كنت أود أن تكون قادرة على الوصول إلى هذه الصفحة من خارج الجامعة الإنترانت ؟

أفترض أنه من أجل الوصول إلى Uni الداخلية يجب أن تقوم بإدخال كلمة مرور ، وأن Google لا مؤشر أي من ليوني صفحات الشبكة الداخلية-التي هي طبيعة إنترانت.

إذا كان كل ما سبق الافتراضات صحيحة ثم يمكنك ببساطة تحتاج إلى المضيف الخاص بك ملفات pdf على موقع الويب الخاص بك خارج الجامعة الداخلية.أبسط طريقة هي أن تبدأ بلوق (أي التكاليف و سهلة جدا و سريعة للقيام) ثم بعد ملفات pdf الخاصة بك هناك.

وسوف جوجل ثم فهرسة صفحات موقعك و أيضا "كشط البيانات" من pdf الخاص بك كما كنت وضعت عليه ، وهو ما يعني أن النص في ملفات pdf الخاصة بك سوف تكون قابلة للبحث.

المخطط التفصيلي:

1.القانون

"المشكلة تأتي مع تطبيق هذا القانون!في الرئيسية فمن السهل, في الممارسة العملية مكلفة!" المصدر

"لا يوجد قانون ينص على أن /robots.txt يجب أن يطاع, ولا تشكل عقدا ملزما بين صاحب الموقع و المستخدم ، ولكن وجود /robots.txt يمكن أن تكون ذات صلة في القضايا القانونية." المصدر

2.ممارسة

disallow filetype:txt

3.نظريا ممكن ؟

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow