سؤال

عند البحث في جوجل (أنا شبه متأكد أن التافيستا فعلت نفس الشيء) يقول "النتائج 1 إلى 10 من حوالي xxxx"...

وقد دهشت دائما لي...ماذا يعني "عنها" ؟
كيف يمكن الاعتماد تقريبا ؟
أنا لا أفهم لماذا لا يمكن أن تأتي مع الرقم الدقيق في فترة زمنية معقولة ، ولكن كيف تصل حتى هذا "التقريبية" ؟

أنا متأكد من أن هناك الكثير من النظرية وراء هذا فاتني...

هل كانت مفيدة؟

المحلول

الأرجح انها مشابهة نوعا من يقدر الصف التهم المستخدمة من قبل معظم أنظمة SQL في الاستعلام التخطيط ؛ عدد الصفوف في الجدول (يعرف بالضبط من آخر مرة الإحصاءات التي تم جمعها, ولكن عموما لا يصل إلى التاريخ) ، مضروبا يقدر الانتقائية (عادة على أساس نوع من التوزيع الإحصائي نموذج احتساب أخذ العينات بعض فرعية صغيرة من الصفوف).

إن كيو دليل على قسم الإحصاءات المستخدمة من قبل مخطط هذا هو إلى حد ما مفيدة ، على الأقل إذا كنت اتبع الروابط إلى pg_stats ومختلف الأقسام الأخرى.أنا متأكد من أن لا تصف ما تفعله غوغل ، لكنه على الأقل يظهر نموذج واحد حيث يمكن الحصول على أول ن الصفوف و تقدير كم قد يكون هناك.

نصائح أخرى

لا علاقة سؤالك, لكن تذكر من مزحة صغيرة صديق لي عندما بسيط الأنا البحث (و لا تقل لي أنك لم بحثت عن اسمك).قال شيئا مثل

"نجاح باهر ، حوالي 5000 النتائج في 0.22 ثانية!الآن, تخيل كم من نتائج هذا في دقيقة واحدة ساعة واحدة في يوم واحد!"

أتصور تقدير استنادا إلى الإحصاءات.أنها لن نحسب كل صفحة ذات الصلة المباريات, لذلك ما (سوف) لا يتم العمل بها تقريبا ما هي النسبة المئوية من الصفحات التي تطابق الاستعلام استنادا إلى بعض مجريات الأمور ومن ثم استخدام تلك كأساس العد.

واحد ارشادي قد يكون على علاقة عينة عد - أخذ عينة عشوائية من 1000 أو حتى الصفحات ومعرفة ما هي النسبة المئوية مطابقة.لن تأخذ الكثير من العينة للحصول على statisically كبيرة الإجابة.

الشيء الوحيد الذي لم يتم ذكره حتى الآن هو إلغاء البيانات المكررة.بعض محركات البحث (لست متأكدا بالضبط كيف جوجل على وجه الخصوص لا) سيتم استخدام الاستدلال محاولة تقرر ما إذا كان اثنين من عناوين مختلفة تحتوي على نفس (أو مشابهة للغاية) المحتوى وبالتالي تكرار النتائج.

إذا كان هناك 156 عناوين فريدة من نوعها ، ولكن 9 من تلك التي تم وضع علامة عليها باعتبارها نسخ من النتائج الأخرى ، فمن أبسط القول "حوالي 150 النتائج" وليس شيء من هذا القبيل "156 النتائج التي تحتوي على 147 نتائج فريدة من نوعها و 9 التكرارات".

إعادة عدد محدد من نتائج لا يستحق النفقات العامة لحساب بدقة.منذ ليس هناك الكثير من القيمة من معرفة كان هناك 1,004,345 النتائج بدلا من 'حوالي 1,000,000', إنه أكثر أهمية من تجربة المستخدم النهائي منظور العودة إلى النتائج بشكل أسرع بدلا من الوقت الإضافي لحساب المجموع.

من جوجل نفسها:"جوجل حساب إجمالي عدد نتائج البحث هو تقدير.ونحن نفهم أن الرقم الملعب هو قيمة ، وتوفير تقدير بدلا من الحساب الدقيق ، يمكننا العودة جودة نتائج البحث بشكل أسرع."

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top