سؤال

خطرت لي فكرة إنشاء محرك بحث يقوم بفهرسة عناصر الويب مثلما تفعل محركات البحث الأخرى الآن، ولكنه سيخزن فقط عنوان الملف وعنوان url وتجزئة المحتويات.

بهذه الطريقة سيكون من السهل العثور على العناصر على الويب إذا كانت لديك بالفعل ولا تعرف مصدرها أو كنت تريد معرفة جميع الأماكن التي ظهر فيها شيء ما.

أكثر فائدة للعناصر غير النصية مثل الصور والملفات التنفيذية والمحفوظات.

كنت أتساءل عما إذا كان هناك بالفعل شيء مماثل؟

هل كانت مفيدة؟

المحلول

الدفع صفحة ويكيبيديا حول التجزئة الحساسة للمنطقة المحلية.هناك ايضا صفحة جيدة يستضيفها بحث عن معهد ماساتشوستس للتكنولوجيا.

بشكل عام، هناك عدة نكهات متاحة:التجزئة للسلاسل (مثل سمهاش)، مجموعات أو ميزات 0/1 (مثل التجزئة الحكيمة)، وللناقلات الحقيقية.

الحيلة الرئيسية للتجزئة الرقمية هي في الأساس تخفيض البعد, ، حتى الآن.بالنسبة للسلاسل، الفكرة هي التوصل إلى تمثيل قوي في مواجهة التعديلات الطفيفة.

أقوم أيضًا بإجراء القليل من البحث في هذا المجال، على الرغم من أنني أعتقد أن تدفق المكدس قد لا يكون المكان المناسب للعمل الناشئ.

نصائح أخرى

حسنًا، بالنسبة للصور، هناك [http://tineye.com/][1], ، والذي سيعمل على تحسين ذلك، وسيجد لك صورًا مماثلة أيضًا.

[1]: http://tineye.com/ عين القصدير

يبدو أن السؤال يركز على تجزئات المطابقة التامة، والتي نفهمها بشكل أفضل من أساليب الجوار الأقرب، وهي بالفعل جديرة بالاهتمام، خاصة إذا كان بإمكان الأشخاص مشاركة العلامات والبيانات الوصفية الأخرى بهذه الطريقة.

كما لاحظ @rjmunro، يعد البحث القائم على التجزئة فكرة شائعة في عالم P2P، وقد فعلت Bitzi هذا إلى حد كبير، على الرغم من أنها أغلقت أبوابها ولم تعد Bitpedia (موسوعة الوسائط الرقمية) مستضافة هناك بعد الآن، على الرغم من أن بعضها على الأقل لا يزال متاحًا على Archive.org.

أنتجت Bitzi أيضًا برامج مثل بيتكوليدر (SourceForge.net), ، و ال مخطط URI للمغناطيس, ، والذي يسمح بتحديد ملف عن طريق التجزئة وبالتالي فهو معرف قائم على المحتوى.تدعم التطبيقات المختلفة البحث في قواعد بيانات مختلفة عبر عناوين URI الخاصة بـ Magnet كما هو موضح في صفحة Wikipedia تلك.

الفكرة نفسها شائعة في مشهد اختراق كلمات المرور - انظر على سبيل المثال. findmyhash - برنامج Python النصي لكسر التجزئة باستخدام الخدمات عبر الإنترنت إلخ.

وللمضي قدمًا، أعتقد أنه سيكون أمرًا رائعًا لو كانت هناك قواعد بيانات ومستودعات عبر الإنترنت تحدد المحتوى عن طريق التجزئة وتوفره العلامات وغيرها البيانات الوصفية حول المحتوى من وجهات نظر مختلفة.ثم يمكنني ترك مجموعتي الموسيقية في حالتها الأصلية (بدون إهدار مساحة ووقت احتياطيين)، ولكن لا يزال بإمكاني وضع علامة عليها بنفسي وإضافة بيانات وصفية أخرى، عبر قواعد بيانات العلامات الخارجية.إذا عرفت تطبيقاتي كيفية التقاط العلامات، فسيبدو ذلك أفضل بكثير من النظام الحالي حيث نقوم بتعديل ونسخ الملفات الكبيرة فقط لنقل العلامات من على سبيل المثال.سطح المكتب الخاص بي إلى هاتفي.

انظر فكرة ذات صلة في التجزئة المستقلة للبيانات التعريفية لتحديد الوسائط وتحسين نقل P2P (بي دي إف).

إنها ليست فكرة سيئة.في بعض الأحيان أجد نفسي عثرت على ملف ما أحاول معرفة مصدره :) ولكن كيف ستتتبع مصادر العنصر؟يمكن الحصول على المحتوى بوسائل مختلفة - متصفح الويب، مدير التنزيل، ببساطة عن طريق النسخ من مشاركة الشبكة.

إذا فهمت اقتراحك بشكل صحيح، http://bitzi.com/ لقد فعل هذا لفترة من الوقت.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top