منع جوجل من الفهرسة

https://stackoverflow.com/questions/390368

google-index

23-08-2019
|

سؤال

هل هناك طريقة لمنع Google من فهرسة موقع ما؟

المحلول

robots.txt.

User-agent: *
Disallow: /

هذا سوف يمنع جميع روبوتات البحث من الفهرسة.

لمزيد من المعلومات ترى:http://www.google.com/support/webmasters/bin/answer.py؟hl=en&answer=40360.

نصائح أخرى

يجب أن أضيف إجابتي هنا، لأن الإجابة المقبولة لا تمس المشكلة بشكل صحيح.تذكر أيضًا أن منع Google من الزحف لا يعني أنه يمكنك الحفاظ على خصوصية المحتوى الخاص بك.

إجابتي مبنية على مصادر قليلة: https://developers.google.com/webmasters/control-crawl-index/docs/getting_started https://sites.google.com/site/webmasterhelpforum/en/faq--crawling--indexing---ranking

robots.txt ضوابط الملف الزحف، ولكن ليس الفهرسة!هذان الإجراءان مختلفان تمامًا، ويتم تنفيذهما بشكل منفصل.قد يتم الزحف إلى بعض الصفحات ولكن لا تتم فهرستها، وقد تتم فهرسة بعضها ولكن لم يزحف قط.قد يكون رابط الصفحة التي لم يتم الزحف إليها موجودًا على مواقع ويب أخرى، مما يجعل مفهرس Google يتتبعه ويحاول فهرسته.

السؤال يتعلق بالفهرسة وهي جمع البيانات حول الصفحة حتى تكون متاحة من خلال نتائج البحث.يمكن حظره بإضافة علامة التعريف:

<meta name="robots" content="noindex" />

أو إضافة رأس HTTP إلى الاستجابة:

X-Robots-Tag: noindex

إذا كان السؤال يتعلق بالزحف، فيمكنك بالطبع الإنشاء robots.txt الملف ووضع الأسطر التالية:

User-agent: *
Disallow: /

الزحف هو إجراء يتم إجراؤه لجمع معلومات حول بنية موقع ويب محدد.على سبيل المثاللقد قمت بإضافة الموقع من خلال أدوات مشرفي المواقع من Google.سوف يأخذها الزاحف على حسابك، ويزور موقع الويب الخاص بك، ويبحث عنه robots.txt.إذا لم يعثر على أي شيء، فسوف يفترض أنه يمكنه الزحف إلى أي شيء (من المهم جدًا أن يكون لديك sitemap.xml الملف أيضًا للمساعدة في هذه العملية وتحديد الأولويات وتحديد ترددات التغيير).إذا وجد الملف، فسوف يتبع القواعد.بعد الزحف الناجح، سيتم في مرحلة ما تشغيل فهرسة للصفحات التي تم الزحف إليها، ولكن لا يمكنك معرفة متى...

مهم:كل هذا يعني أنه لا يزال من الممكن ظهور صفحتك في نتائج بحث Google بغض النظر عن ذلك robots.txt.

آمل أن يقرأ بعض المستخدمين على الأقل هذه الإجابة، وأن تكون واضحة، لأنه من المهم معرفة ما يحدث بالفعل.

يمكنك تعطيل هذا الخادم على نطاق واسع عن طريق إضافة الإعداد أدناه في عالميا في Apache Conf أو يمكن استخدام نفس المعلمات في VHOST لتعطيلها ل VHOST معينة فقط.

مجموعة رأس X-Robots-tag "NoIndex، Nofollow"

بمجرد القيام بذلك، يمكنك اختباره عن طريق التحقق من رؤوس Apache التي تم إرجاعها.

Curl -i Staging.mywebsite.com http / 1.1 302 وجدت التاريخ: SAT، 26 نوفمبر 2016 22:36:33 GMT Server: Apache / 2.4.18 (Ubuntu) الموقع: / الصفحات / X-Robots-tag: NoIndex، Nofollow نوع المحتوى: نص / أتش تي أم أل. Charset = UTF-8

هناك عدة طرق لإيقاف الزواحف بما في ذلك Google التوقف عن الزحف وفهرسة موقع الويب الخاص بك.

في مستوى الخادم من خلال الرأس

Header set X-Robots-Tag "noindex, nofollow"

في مستوى مجال الجذر من خلال ملف Robots.txt

User-agent: *
Disallow: /

على مستوى الصفحة من خلال علامة الروبوتات meta

<meta name="robots" content="nofollow" />

ومع ذلك، يجب أن أقول ما إذا كان موقع الويب الخاص بك قد عفا عليه الزمن وليس الصفحات / عناوين URL الحالية، يجب عليك الانتظار حتى ستقوم Google في وقت ما بتضخم عناوين URL تلقائيا في الزحف التالي - اقرأ https:/support.google.com/webmasters/answer/1663419؟hl=en.

ضع في اعتبارك أن مجنزرة Microsoft من أجل Bing، على الرغم من مطالبتها أن Obey Robots.txt، لا تفعل ذلك دائما.

تشير إحصائيات الخادم لدينا إلى أن لديهم عدد من IP الذي يدير الزواحف التي لا تطيع obey robots.txt بالإضافة إلى عدد من تلك التي تفعل.

يمكنني استخدام صفحة ASPX البسيطة لترحيل النتائج من Google إلى متصفحي باستخدام ملف تعريف ارتباط "Pref" مزيف يحصل على 100 نتيجة في كل مرة ولم أرغب في رؤية صفحة الترحيل هذه حتى أتحقق من عنوان IP وإذا كان يبدأ مع 66.249 ثم أنا ببساطة أفعل إعادة توجيه.

انقر فوق اسمي إذا قمت بقدر الخصوصية وترغب في نسخة.

هناك خدعة أخرى أستخدمها هي الحصول على بعض JavaScript التي تستدعي صفحة لتعيين علامة في الجلسة لأن معظم برامج الويب (ليس كلها) لا تنفذ JavaScript حتى تعرف أنه قد تم إيقاف تشغيل جافا سكريبت أو أكثر من اللازم بوت.

كما يمكنك إضافة الروبوتات المعتوية بهذه الطريقة:

<head>
<title>...</title>
<META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW">
</head>

وطبقة إضافية أخرى هي تعديل .htaccess، ولكن تحتاج إلى التحقق من ذلك بعمق.

استخدم علامة Meta Nofollow:

<meta name="robots" content="nofollow" />

لتحديد nofollow على مستوى الرابط، أضف السمة REL مع القيمة Nofollow إلى الرابط:

<a href="example.html" rel="nofollow" />

هل هناك طريقة لإيقاف Google من فهرسة موقع؟

لإيقاف Google من الزحف ببساطة إضافة ما يلي meta العلامة إلى head من كل صفحة:

<meta name="googlebot" content="noindex, nofollow">

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow