كيفية الكشف عن خطأ مطبعي في البحث عن المنتج واقتراح ممكن التصحيحات ؟

StackOverflow https://stackoverflow.com/questions/487003

سؤال

وبالنظر إلى قاعدة بيانات كبيرة جدا من أسماء المنتجات ، كيف من الممكن الكشف عن الأخطاء المطبعية في البحث المستخدم واقتراح التصحيحات الممكنة (مثل طريقة جوجل يعرض لهم) ؟

E. g.

يدخل المستخدم "شوكة handels" و المطابع 'بحث'.

يعودون

"أية نتائج.هل تقصد شوكة مقابض'?"

هل كانت مفيدة؟

المحلول

هناك عدة طرق للحصول على هذه المشكلة:

  1. حفظ جدول الأكثر شعبية الأخطاء الإملائية في قاعدة البيانات الخاصة بك.إذا كنت بحاجة إلى بعض الأخطاء الإملائية الشائعة: هنا)
  2. باستخدام خوارزمية بناء على تحرير المسافة:في نظرية المعلومات و علوم الحاسوب, تحرير المسافة بين اثنين من سلاسل الأحرف هو عدد العمليات اللازمة لتحويل واحد منهم إلى الآخر.هناك العديد من خوارزميات مختلفة لتحديد أو حساب هذا المقياس.قراءة مقالة ويكيبيديا عن Levenshtein الخوارزمية على سبيل المثال.
  3. إذا كنت تستخدم لوسين على النص الكامل البحث ، هنا هو لطيف المادة مما يدل على كيفية تنفيذ "هل تقصد" الميزة.
  4. إذا كنت ترى أن ميزة بسيطة موجة تصحيح ، وإليك بعض لطيفة جدا قصيرة تطبيقات في عدة لغات: كيفية كتابة الإملاء مصحح

نصائح أخرى

هل يمكن استخدام فظي خوارزمية ، مثل <وأ href = "HTTP: / /en.wikipedia.org/wiki/Soundex "يختلط =" نوفولو noreferrer "> SOUNDEX لتجد مباريات هذا الصوت ما شابه ذلك.

وكيو على وحدة اسمه fuzzystrmatch ، مع مستندات تظهر أمثلة على استخدام SOUNDEX، Levenshtein، Metaphone، ونقرا Metaphone.

وأنا متأكد من أني قرأت أن جوجل يحتفظ قائمة ما retypes المستخدم عندما تحصل على أية نتائج. هل يمكن الحفاظ تعيين هذه القيم (ويقول إذا بدأت سلسلة أعدت كتابتها بالحرف نفسه).

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top