هل يمكن لجهاز بحث Google إنشاء تقرير يعرض الروابط المكسورة على موقعك؟

StackOverflow https://stackoverflow.com/questions/418288

  •  03-07-2019
  •  | 
  •  

سؤال

أعلم أن جهاز بحث Google لديه إمكانية الوصول إلى هذه المعلومات (لأن هذه العوامل في خوارزمية Pagerank) ، ولكن هل هناك طريقة لتصدير هذه المعلومات من جهاز الزاحف؟

لن تعمل الأدوات الخارجية لأن جزءًا كبيرًا من المحتوى مخصص لإنترانت الشركات.

هل كانت مفيدة؟

المحلول 4

تحولت أداة مجانية تسمى Xenu إلى أن يكون السلاح المفضل لهذه المهمة. http://home.snafu.de/tilman/xenulink.html#download

نصائح أخرى

قد يكون شيئًا متاحًا على Google ، لكنني لم أتحقق من ذلك. عادة ما أستخدم مدقق الارتباط المقدم من W3C. يمكن لـ W3C One أيضًا اكتشاف عمليات إعادة التوجيه التي تكون مفيدة إذا كان الخادم الخاص بك يتعامل مع 404s عن طريق إعادة توجيه بدلاً من إرجاع رمز الحالة 404.

يمكنك استخدام أدوات مدير المواقع Google لعرض ، من بين أشياء أخرى ، روابط مكسورة على موقعك.

هذا لن يوضح لك روابط مكسورة للمواقع الخارجية.

يبدو أن هذا غير ممكن. تحت الحالة والتقارير> تشخيصات الزحف ، هناك أنماطان من التقارير المتاحين: Directory Drill-Down "عرض شجرة" وعنوان URL 100 في "عرض قائمة" الزمن. لقد حاول بعض الأشخاص إنشاء برامج للصفحة من خلال عرض القائمة ، لكن يبدو أن هذا يفشل بعد بضعة آلاف من عناوين URL.

نصيحتي هي استخدام سجلات الخادم الخاصة بك بدلاً من ذلك. تأكد من تمكين 404 وتسجيل URL في المرجع على خادم الويب الخاص بك ، حيث أنك ربما ترغب في تصحيح الصفحة التي تحتوي على الرابط المكسور.

يمكنك بعد ذلك استخدام أ محلل ملف السجل لإنشاء تقرير رابط مكسور.

لإنشاء طريقة فعالة وطويلة الأجل لمراقبة روابطك المكسورة ، قد ترغب في إعداد وظيفة cron للقيام بما يلي:

  • يستخدم grep لاستخراج الخطوط التي تحتوي على 404 إدخالات من ملف سجل الخادم.
  • يستخدم sed لإزالة كل شيء باستثناء عناوين URL المطلوبة وعناوين URL من كل سطر.
  • يستخدم sort و uniq أوامر لإزالة التكرارات من القائمة.
  • إخراج النتيجة إلى ملف جديد في كل مرة حتى تتمكن من مراقبة التغييرات بمرور الوقت.

لماذا لا تحلل فقط سجلات خادم الويب الخاص بك والبحث عن جميع الصفحات 404؟ هذا منطقي أكثر بكثير وأكثر موثوقية.

أعلم أن هذا سؤال قديم ولكن يمكنك استخدام ميزة URLS للتصدير على وحدة تحكم Admin GSA ثم ابحث عن عناوين URL مع حالة من not_found. سيوضح لك هذا كل عناوين URL التي اكتشفتها GSA لكنها أعادت 404 عندما حاولت الزحف لهم.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top