خوارزمية تشابه (من الموضوع) من عناصر الأخبار

https://stackoverflow.com/questions/732934

06-09-2019
|

سؤال

أريد تحديد تشابه محتوى عنصرين أخبار، على غرار أخبار Google ولكن مختلفة بمعنى أنني أريد أن أكون قادرا على تحديد الموضوعات الأساسية التي يتم بها تحديد الموضوعات ذات الصلة.

لذلك إذا كان مقال حول صدام حسين، فقد يوصي الخوارزمية بشيء عن المعاملات التجارية دونالد رامسفيلد في العراق.

إذا كنت تستطيع فقط إلقاء الكلمات الرئيسية مثل K-Neve Gearnbors وتفسير صغير حول سبب عملهم (إذا استطعت)، فسأفعل بقية الخوارزمية في الخوارزمية. فقط تبحث عن مكان للبدء، لأنني أعرف أن هناك شخصا ما يجب أن يكون هناك شيء مماثل من قبل.

المحلول

الأفكار الأولى:

إرم كلمات الضوضاء بعيدا (،،، أنت،،، بعضها، ...).
عد كل الكلمات الأخرى والفرز حسب الكمية.
لكل كلمة في المقالتين، أضف درجة اعتمادا على المبلغ (أو المنتج أو بعض الصيغة الأخرى) من الكميات.
النتيجة تمثل التشابه.

يبدو أنه يبدو أن المقال حول دونالد رامسفيلد سيكون له هذين كلمتين قليلا، وهذا هو السبب في أنني أزنهم في المقال.

ومع ذلك، قد يكون هناك مقالة تذكر وارن بوفيه عدة مرات مع بيل غيتس مرة واحدة، وذكر آخر كلا من بوابات بيل و Microsoft عدة مرات. الارتباط سيكون هناك الحد الأدنى.

بناء على تعليقك:

لذلك إذا كان مقال حول صدام حسين، فقد يوصي الخوارزمية بشيء عن المعاملات التجارية دونالد رامسفيلد في العراق.

لن يكون هذا هو الحال ما لم يذكر مقال صدام أيضا العراق (أو دونالد).

هذا هو المكان الذي سأبدأ فيه، ويمكنني أن أرى ثقوبا محتملة في النظرية بالفعل (ستناسب مقال حول بيل غيتس عن كثب مع مقال حول بيل كلينتون إذا تم ذكر أسماءهم الأولى كثيرا). قد يتم الاعتناء بهذا بكلمات أخرى (مايكروسوفت لفاتيل واحد، هيلاري للأخرى).

ربما أعطيه إجراء اختبار قبل محاولة إدخال وظيفة القرب للكلمات لأن ذلك سيجعله معقدا للغاية (ربما لا لزوم لها).

سيحصل أحد التحسينات الأخرى المحتملة على جمعيات "صعبة" (مثل دائما إضافة كلمة أفغانستان إلى مقالات مع أسامة بن لادن فيها). ولكن مرة أخرى، يتطلب ذلك صيانة إضافية مقابل القيمة المشكوك فيها منذ أن تذكر المواد المتعلقة بالأسامة أفغانستان تقريبا.

نصائح أخرى

في الوقت الحالي أفكر في شيء مثل هذا.

كل كلمة غير ضوضاء هي بعد. يتم تمثيل كل مقالة من قبل متجه حيث يتم تمثيل الكلمات التي لا تظهرها صفر وأولئك الذين يظهرون الحصول على قيمة مساوية لعدد المرات التي تظهر مقسومة على إجمالي الكلمات على الصفحة. ثم يمكنني أخذ المسافة Euclidean بين كل نقطة في هذه المساحة للحصول على تشابه أي مقالين.

ستكون الخطوة التالية هي تحديد مجموعات المقالات، ثم حدد نقطة مركزية لكل كتلة. ثم حساب المسافة Euclidean بين أي مجموعتين يعطي تشابه الموضوعات.

بايه أعتقد عن طريق كتابة ذلك أنا حل مشكلتي الخاصة. بالطبع فقط بطريقة رفيعة المستوى للغاية، أنا متأكد من أنني سأجدها سأجد مشاكل ... الشيطان هو دائما بالتفصيل.

لكن التعليقات والتحسينات لا تزال موضع تقدير كبير.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow