سؤال

هل هناك صيغة رياضية معروفة يمكنني استخدامها لتقدير حجم مؤشر لوسين الجديد؟أعرف عدد الحقول التي أريد فهرستها وحجم كل حقل.وأعرف عدد العناصر التي سيتم فهرستها.لذا، بمجرد معالجة لوسين لهذه البيانات، كيف تتم ترجمتها إلى بايت؟

هل كانت مفيدة؟

المحلول

هنا هو وثائق تنسيق فهرس لوسين.الملف الرئيسي هو الفهرس المركب (ملف .cfs).إذا كان لديك إحصائيات مصطلح ، فيمكنك الحصول على تقدير لحجم ملف .cfs ، لاحظ أن هذا يختلف بشكل كبير بناءً على المحلل الذي تستخدمه ، وعلى أنواع الحقول التي تحددها.

نصائح أخرى

يقوم الفهرس بتخزين كل "رمز مميز" أو حقل نصي وما إلى ذلك، مرة واحدة فقط... وبالتالي فإن الحجم يعتمد على طبيعة المادة التي تتم فهرستها.أضف إلى ذلك كل ما يتم تخزينه أيضًا.قد يكون أحد الأساليب الجيدة هو أخذ عينة وفهرستها، واستخدام ذلك لاستقراء المجموعة المصدرية الكاملة.ومع ذلك، فإن نسبة حجم الفهرس إلى حجم المصدر تنخفض بمرور الوقت أيضًا، نظرًا لأن الكلمات موجودة بالفعل في الفهرس، لذلك قد ترغب في جعل العينة تمثل نسبة مناسبة من العينة الأصلية.

أعتقد أن الأمر يتعلق أيضًا بتكرار كل مصطلح (أي.يجب أن يكون فهرس 10000 نسخة من نفس المصطلحات أصغر بكثير من فهرس 10000 مصطلح فريد تمامًا).

أيضًا، من المحتمل أن يكون هناك اعتماد بسيط على ما إذا كنت تستخدم ناقلات المصطلحات أم لا، وبالتأكيد ما إذا كنت تقوم بتخزين الحقول أم لا.هل يمكنك أن تعطي معلومات إضافية؟هل يمكنك تحليل مصطلح تكرار بيانات المصدر الخاصة بك؟

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top