سؤال

لدي مشكلة غريبة.

لدي قائمة من الجمل (حوالي 0.1 مليون دولار) التي تريد أن الوسم باستخدام ستانفورد اسمه الكيان الاعتراف(ner) علامات.لقد كانت علامات باستخدام السطر التالي من التعليمات البرمجية التي يتم توفيرها من جامعة ستانفورد ner موقع تجريبي (جافا رمز العرض).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

ظننت أن كل شيء يسير على ما يرام حتى يدويا التحقق من بعض من الجمل التي لا يوصف في كل شيء والتي هي من المفترض أن يكون معلم.ولكن عندما تكون هذه الجمل التي لا الموسومة منتقاة في بعض العينات قائمة واختبارها مع رمز أعلاه أنهم يحصلون على معلم ثم.لذلك أنا في حيرة أين أنا ذاهب خاطئ.الجمل التي لم يتم وضع علامة بشكل صحيح مثل في حدود 1000 - 1500 الجمل.لذا عندما هربت هذه بشكل غير صحيح الموسومة الجمل في قائمة منفصلة ثم يتم الحصول على معلم.هو حجم البيانات (0.1 مليون دولار) وجود أي تأثير على المصنف ?

على سبيل المثال:النظر في الجملة التالية - "IBM شركة مقدمة" الجمل مثل أعلاه موجودة في عدد كبير في بلدي 0.1 مليون dataset.حتى عندما كنت تفعل علامات باستخدام رمز أعلاه على 0.1 مليون dataset العديد من الجمل مثل هذه قد حصلت على أي علامات على الإطلاق.ولكن عندما ناحية اختيار تلك التي وضعت في القائمة ومن ثم القيام علامات ثم يتم الحصول على معلم.

لقد حاولت كل نهج و أنا في نهاية المطاف في نفس نتيجة أي علامات على الجمل مثل أعلاه عند وضع علامات على كامل البيانات.

حاولت التالية 3 طرق مختلفة 1.مصنف.classifyToString(inputString, "slashTags", false) 2.مصنف.تصنيف(inputString) 3.مصنف.classifyToCharacterOffsets(inputString)

أي أفكار أو اقتراحات أين أنا ذاهب خاطئ ؟

شكرا

هل كانت مفيدة؟

المحلول

أعتقد أنك حصلت على إجابة من الرابط أدناه:

https://mailman.stanford.edu/pipermail/java-nlp-user/2014-July/006045.html

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top