كيفية استرداد صفحات جوجل

https://stackoverflow.com/questions/1885691

19-09-2019
|

سؤال

عزيزي كل ذلك، أنا الآن باستخدام Webtool

http://fiddesktop.cs.northwestern.edu/mmp/scrape؟url=.

لتحليل صفحة ويب.

على سبيل المثال، يمكننا تحليل Newyorktimes الصفحة الرئيسية، نحن نفعل:

http://fiddesktop.cs.northwestern.edu/mp/scrape؟url=http://www.nytimes.com/pages/world/index.html.

في شريط العناوين من متصفحنا، سوف تحلل الأشياء بشكل جيد بالنسبة لنا.

ومع ذلك، فشل فقط في صفحات Google. على سبيل المثال، إذا أردت تحليل رأس الأخبار Google، مثل:

http://fiddesktop.cs.northwestern.edu/mmp/scrape؟url=http://news.google.com/nwshp؟hl=en&tab=wn.

سأحصل دائما على 500 خطأ في الخادم الداخلي.

أنا متأكد من أن هذا هو شيء يتعلق ب Google Website، وأعتقد أنه ربما نحتاج إلى بعض API لجوجل، هل لدى أي شخص أي فكرة عن كيفية فرز هذا من أجل صفحات Google؟ شكرا جزيلا.

المحلول

لكل Google.com. robots.txt. ملف، يطلب منك تباهر عدم كشط محتواهم. لا توفر Google API لنتائج البحث القابل للقراءة بالآلة؛ إنهم يريدون السيطرة على عرض محتوىهم عبر الحاجيات والاستراتيجيات التضمين.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow