سؤال

أقوم ببناء مصحح إملائي لاستعلامات محرك البحث من خلال تنفيذ الطريقة الموضحة في "تصحيح الإملاء كعملية تكرارية تستغل المعرفة الجماعية لمستخدمي الويب".

النهج رفيع المستوى هو كما يلي: بالنسبة لاستعلام معين ، توصل إلى مرشحين تصحيح محتمل (الكلمات في سجل الاستعلام على مسافة تحرير معينة) لكل unigram و bigram ، ثم قم بإجراء بحث Viterbi المعدل للعثور على التسلسل الأكثر ترجيحًا من المرشحين أعطى ترددات bigram. كرر هذه العملية حتى يصبح التسلسل أقصى احتمال.

إن التعديل على بحث Viterbi هو أنه إذا تم العثور على كلمتين مجاورتين في معجم موثوق به ، فيمكن تصحيح أحدهما على الأكثر. هذا مهم بشكل خاص لتجنب تصحيح الاستعلامات ذات الكلمات الواحدة المنطقية بشكل صحيح إلى كلمات التردد الأعلى.

سؤالي هو أين أجد مثل هذا المعجم. يجب أن يكون باللغة الإنجليزية ويحتوي على أسماء مناسبة (الأسماء الأولى/الأخيرة والأماكن والأسماء التجارية ، إلخ) من المحتمل أن تظهر في استفسارات البحث وكذلك الكلمات الإنجليزية المشتركة وغير المألوفة. حتى الدفع في الاتجاه الصحيح سيكون مفيدًا.

أيضًا ، إذا كان أي شخص يقرأ هذا ولديه أي اقتراحات للتحسين في المنهجية المقدمة في الورقة ، فأنا منفتح على هؤلاء أيضًا نظرًا لأن هذا هو أول غزو لي في NLP.

هل كانت مفيدة؟

المحلول

أفضل معجم لهذا الغرض هو على الأرجح مجموعة بيانات Google Web 1T 5-Gram.

http://www.ldc.upenn.edu/catalog/catalogentry.jsp؟catalogid=ldc2006t13

لسوء الحظ ، ليس مجانيًا ما لم تكن جامعتك عضوًا في LDC.

يمكنك أيضًا تجربة Corpora في حزم مثل Python NLTK ، ولكن يبدو أن Google One هو الأفضل لغرضك لأنه مرتبط باستعلامات البحث بالفعل.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top