سؤال

أريد فقط أن أعرف ما هو رأيك حول كيفية بصمات الأصابع / التحقق من بنية HTML / Links.

المشكلة التي أريد حلها هي: بصمة على سبيل المثال 10 مواقع مختلفة، صفحات HTML. وبعد بعض الوقت، أريد إمكانية التحقق من ذلك، لذلك، إذا تم تغيير الموقع، تغير الروابط، وفشل التحقق، ونجاح التحقق من الإخفاء. تتمثل الفكرة الأساسية في تحليل هيكل الارتباط من خلال تقسيمه بطريقة ما، مما يؤدي نوعا من الشجرة، ومن هذه الشجرة تولد نوعا من التعليمات البرمجية. لكنني ما زلت في مرحلة العصف الذهني، حيث أحتاج إلى مناقشة هذا مع شخص ما، ومعرفة الأفكار الأخرى.

لذلك فإن أي أفكار، algos، والاقتراحات ستكون مفيدة.

هل كانت مفيدة؟

المحلول

مهما كانت البيانات أو الهيكل الذي تنوي التجزئة وتلخيص وصمة الأصابع بطريقة أخرى، تأكد من حساب أشكال الضوضاء المختلفة على العديد من مواقع الويب "خارج-هناك".

مثال على هذه الضوضاء أو المحتوى العشوائي:

  • شركة سعر الأسهم
  • حالة الطقس في أينما كانت المدينة
  • العديد من الصفحات لها وقت تاريخ (الآن) في مكان ما في مكان ما في تذييلات أو رؤوس
  • محتوى الإعلان (أكثر وأكثر من ذلك، يجب أن تبحث عن الشعوب الأصلية على الموقع لهزيمة حاصرات الإعلانات على متصفحات الويب)

نصائح أخرى

هل يمكن أن يكون لديك دائما HTH HTML RAW للموقع ومقارنتها. أعتقد أن المواقع يمكن أن تحافظ على تاريخ "آخر تعديل"، لكنني لست متأكدا مما إذا كان هذا دائما محدثا.

تحرير: خطأي، هذه هي ببساطة طريقة لمقارنة موقع الويب إلى إصدار سابق، ولكن ليس بصمات الأصابع حقا في الطريقة التي تقصد بها.

مجرد إلقاء هذا هناك:

لماذا لا تزحف الموقع، وضع جميع الروابط في مستند XML يمثل خريطة الموقع.

قم بإنشاء المجموع الاختباري MD5 على هذا الملف وتخزينه. ثم، في أي وقت في المستقبل، يمكنك تزيينها، وإعادة إنشاء XML، وإعادة الاختباري ومقارنتها بمخفقاتك السابقة.

إذا لم يطابقوا، فقد تغير بنية الارتباط - على الرغم من أنك لن تعرف بالضرورة أين.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top