البحث عن الكلمات ذات الصلة (خاصة الأشياء المادية) بكلمة معينة

StackOverflow https://stackoverflow.com/questions/610399

  •  03-07-2019
  •  | 
  •  

سؤال

أحاول العثور على كلمات (خاصة الأشياء المادية) مرتبطة بكلمة واحدة.على سبيل المثال:

تنس:مضرب تنس، كرة تنس، حذاء تنس

السنوكر:جديلة السنوكر، كرة السنوكر، الطباشير

شطرنج:رقعة الشطرنج، قطعة الشطرنج

خزانة الكتب:كتاب

لقد حاولت استخدام WordNet، وتحديدًا العلاقة الدلالية للمرادف؛ومع ذلك، فإن هذه الطريقة غير متسقة كما تظهر النتائج أدناه:

تنس:الإرسال، الكرة الطائرة، خطأ القدم، نقطة الضبط، العودة، الميزة

السنوكر: لا شئ

شطرنج:حركة الشطرنج، رقعة الشطرنج (التي تظهر علاقاتها المجازية "مربع" و"قطري")

خزانة الكتب:الرف

سوف تكون هناك حاجة في نهاية المطاف إلى ترجيح المصطلحات، ولكن هذا لا يشكل مصدر قلق حقيقي الآن.

هل لدى أي شخص أي اقتراحات حول كيفية القيام بذلك؟


مجرد تحديث:انتهى الأمر باستخدام مزيج من إجابات كل من Jeff وStompChicken.

جودة المعلومات المستردة من ويكيبيديا ممتازة، وتحديدًا (بشكل غير مفاجئ) وجود الكثير من المعلومات ذات الصلة (مقارنة ببعض المجموعات التي لا توجد فيها مصطلحات مثل "blog" و"ipod").

إن نطاق النتائج من ويكيبيديا هو الجزء الأفضل.يستطيع البرنامج مطابقة مصطلحات مثل (القوائم المختصرة للإيجاز):

  • جولف:[الكرة، الحديد، نقطة الإنطلاق، الحقيبة، النادي]
  • التصوير:[كاميرا، فيلم، صورة فوتوغرافية، فن، صورة]
  • صيد السمك:[سمكة، شبكة، خطاف، فخ، طعم، إغراء، قضيب]

المشكلة الأكبر هي تصنيف كلمات معينة على أنها مصنوعات مادية؛لا يعد WordNet الافتراضي مصدرًا موثوقًا به نظرًا لعدم وجود العديد من المصطلحات (مثل "ipod" وحتى "trampolining").

هل كانت مفيدة؟

المحلول

أعتقد أن ما تطلبه هو مصدر للعلاقات الدلالية بين المفاهيم.ومن أجل ذلك، يمكنني التفكير في عدد من الطرق التي يمكن اتباعها:

  1. خوارزميات التشابه الدلالي.عادةً ما تقوم هذه الخوارزميات بإجراء جولة على العلاقات في Wordnet للتوصل إلى نتيجة ذات قيمة حقيقية لمدى ارتباط المصطلحين.سيكون ذلك محدودًا بمدى جودة تصميم WordNet للمفاهيم التي تهتم بها. ورد نت::تشابه (مكتوب بلغة بيرل) جيد جدًا.
  2. جرب استخدام OpenCyc كقاعدة معرفية.OpenCyc هو إصدار مفتوح المصدر من Cyc، وهو عبارة عن قاعدة معرفية كبيرة جدًا لحقائق "العالم الحقيقي".يجب أن تحتوي على مجموعة من العلاقات الدلالية أكثر ثراءً من WordNet.ومع ذلك، لم أستخدم OpenCyc مطلقًا، لذلك لا أستطيع التحدث عن مدى اكتماله، أو مدى سهولة استخدامه.
  3. تحليل التردد ن جرام.كما ذكر جيف موسر.أسلوب يعتمد على البيانات ويمكنه "اكتشاف" العلاقات من خلال كميات كبيرة من البيانات، ولكنه قد يؤدي في كثير من الأحيان إلى نتائج مزعجة.
  4. التحليل الدلالي الكامن.نهج يعتمد على البيانات يشبه تحليل تردد n-gram الذي يبحث عن مجموعات من الكلمات ذات الصلة لغويًا.

[...]

إذا حكمنا من خلال ما تقول أنك تريد القيام به، أعتقد أن الخيارين الأخيرين من المرجح أن يكونا ناجحين.إذا لم تكن العلاقات موجودة في Wordnet، فلن يعمل التشابه الدلالي ويبدو أن OpenCyc لا يعرف الكثير عنها السنوكر بخلاف حقيقة وجوده.

أعتقد أن الجمع بين كل من n-grams وLSA (أو شيء من هذا القبيل) سيكون فكرة جيدة.سوف تجد ترددات N-gram مفاهيم مرتبطة بإحكام بمفهومك المستهدف (على سبيل المثال.كرة التنس) وLSA سوف تجد المفاهيم ذات الصلة المذكورة في نفس الجملة/الوثيقة (على سبيل المثال.صافي، يخدم).أيضًا، إذا كنت مهتمًا بالأسماء فقط، فقم بتصفية مخرجاتك لتحتوي على الأسماء أو العبارات الاسمية فقط (باستخدام علامة تمييز جزء من الكلام) قد يحسن النتائج.

نصائح أخرى

في الحالة الأولى، ربما كنت تبحث عنه ن غرام حيث ن = 2.يمكنك الحصول عليها من أماكن مثل Google أو إنشاء موقع خاص بك منها كل ويكيبيديا.

لمزيد من المعلومات، تحقق من هذا السؤال ذو الصلة بـ Stack Overflow.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top