سؤال

لذلك أنا صنع "مغناطيس الثلاجة" التفاعلية وكنت أحاول معرفة مجموعة بيانات صالحة للكلمات أن يكون للمستخدم للسحب حولها.

أنا أستخدم مجموعة البيانات هذه .. لكنها ليست كبيرة

http://en.wikipedia.org/wiki/most_common_words_in_English

وأفكار أين تجد مجموعة أكثر صالحة من الكلمات

هل كانت مفيدة؟

المحلول

طريقة واحدة يمكنك القيام بذلك بنفسك هو تنزيل كوربوس للنص، ثم قم بتشغيل برنامج نصي يحسب عدد كل كلمة تظهر. ثم اختر بعض القيمة n وتقسيم كل عدد من خلال n (التقريب لأسفل). لكل كلمة، اصنع مغناطيسا لكل عدد مقسمة. يجب أن تختار n بناء على عدد المغناطيس الذي تريده في النهاية.

هذا لديه ميزة وجود توزيع المغناطيس تطابق توزيع الكلمات. على سبيل المثال، إذا كان "The" 1000 مرة، "Man" 320 مرة، "يمشي" 150 مرة، و "يتخطى" 2 مرات، وتكون تختار n 100، ثم سوف ينتهي بك الأمر جعل 10 "المغناطيس"، 3 "رجل"، 1 "يمشي"، و 0 "يتخطى".

قد ترغب أيضا في تناول لوغاريتم التهم في محاولة للحد من الانحراف. نظرا لأن توزيعات الكلمات هي zipfian ، قد ينتهي بك الأمر مع آلاف "المغناطيس" لكل " ").

أخيرا، فإن الشيء الجميل في هذا النهج هو أنه يمكنك تشغيله على نطاق معين لجعل مجموعة مغناطيس لكلمة لهذا المجال. على سبيل المثال، إذا كنت ترغب في جعل مغناطيس Word يبدو وكأنه قصص إخبارية، فقم بتشغيله على كائن من القصص الإخبارية. إذا كنت ترغب في جعل مغناطيس Word يبدو وكأنه حكايات خرافية، فقم بتشغيله على كائن من القصص الخيالية.

إذا كنت ترغب حقا في الحصول على Vancy، فيمكنك استخدام شيء مثل TF-IDF اختر الكلمات الأكثر تمثيلا لهذا المجال ثم مزجها بكلمات وظيفة مشتركة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top