لا أفهم نتيجتي بعد استخدام findAssocs في R [نسخة مكررة]

StackOverflow https://stackoverflow.com//questions/23024686

  •  21-12-2019
  •  | 
  •  

سؤال

لدي مجموعة بيانات مع التغريدات.أنا أبحث في الكلمة الهولندية "verhuizen".عندما أقوم بتشغيل الكود التالي، أحصل على تغريدتين من مجموعة البيانات الخاصة بي تحتويان على الكلمة.

Aah_verhuizen=Aa_en_Hunze[grepl('verhuizen', Aa_en_Hunze$twt_txt),]

[1] @Isaa_0592 Verhuizen؟وارهين دان؟

[2] Yes de school blijft hier in het dorp، لن نتمكن من التحقق من ذلك مرة أخرى!؟؟

ثم أقوم بتشغيل الكود للعثور على الكلمة الأكثر ارتباطًا بـ "verhuizen" باستخدام findAssocs الخاص بالحزمة tm.

verhuizen <- c('verhuizen')
Aah.corpus <- Corpus(VectorSource(Aa_en_Hunze$twt_txt))
Aah.corpus <- tm_map(Aah.corpus, tolower) 
Aah.corpus <- tm_map(Aah.corpus, removePunctuation)
Aah.dtm <- TermDocumentMatrix(Aah.corpus)
Aah_ass_verhuizen <- findAssocs(Aah.dtm, verhuizen, 0.10)

نتيجتي لهذا الكود هي:

وارهين 0.58

دورب 0.24

isaa0592 0.24

جيبيورين 0.22

بليفت 0.15

لا أعرف كيف يقوم findAssocs بحساب النتائج.على سبيل المثال:لماذا حصلت كلمة "waarheen" على هذه الدرجة العالية؟ولم يرد ذكره إلا مرة واحدة في إحدى التغريدتين.لا أفهم كيف يقوم findAssocs بحساب الدرجات للكلمات المرتبطة.لقد بحثت في وظيفة المساعدة وgoogle وStackoverflow ولكن لم أجد إجابة مرضية.هل يعلم أحد؟

أعتقد أن الإجابة التي أبحث عنها موجودة في سطور التعليمات البرمجية التالية.الذي حصلت عليه من السؤال التالي.

رياضيات tm::findAssocs كيف تعمل هذه الوظيفة؟

function (x, term, corlimit) 
sort(round(x[term, which(x[term, ] > corlimit)], 2), decreasing = TRUE)
<environment: namespace:tm>

ماذا تعمل، أو ماذا تفعل؟سأحاول اكتشاف ذلك بنفسي من خلال تشغيل أجزاء من الجملة.

test <- Aah.dtm['verhuizen', which(Aah.dtm['verhuizen', ]> 0.10)],2

لماذا هذا يعطيني الخطأ التالي؟

خطأ:غير متوقع '،' في "اختبار <- Aah.dtm['verhuizen'، الذي (Aah.dtm['verhuizen', ]> 0.10)]،"

هل كانت مفيدة؟

المحلول

إذا كنت تريد معرفة كيفية عمل الوظيفة، فإن أسهل طريقة هي الاطلاع على الوثائق.الصفحة الرئيسية هي هنا, ، مع مرجع الوظيفة هنا والمقالة القصيرة لطيفة هنا.

إذا لم تقدم لك هذه التفاصيل ما يكفي من التفاصيل، فيمكنك دائمًا الرجوع إلى مصدر الرمز, ، والتي تصادف أنها متاحة تحت GPL.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top