هل يجب علي استخدام Lingpipe أو NLTK لاستخراج الأسماء والأماكن؟

StackOverflow https://stackoverflow.com/questions/1655782

  •  11-09-2019
  •  | 
  •  

سؤال

أبحث عن استخراج الأسماء والأماكن من رشقات نصية قصيرة للغاية

 "الكرادلة مقابل Jays في تورونتو" "دانييل نيستور ونناد زيمونجيك تلعب جوناس بيجورمان ث / كيفن ullyett، توقيت باريس ليتم الإعلان عن" زر جينسون - موقف القطب، برون مرسيدس - موناكو ".

هذه البيانات موجودة حاليا في قاعدة بيانات MySQL، وأنا (إلى حد كبير) لديك سجل منفصل لكل رياضي، على الرغم من أن الأسماء مكتوبة في بعض الأحيان خطأ، إلخ.

أود استخراج الرياضيين والمواقع. عادة ما أعمل في PHP، لكن لم أتمكن من العثور على مكتبة لاستخراج الكيان (وقد أرغب في الحصول على أعمق في بعض البرمجة اللغوية العصبية و مل فى المستقبل).

من ما وجدته، lingpipe. و nltk. يبدو أن أكثر الموصى بها، لكن لا يمكنني معرفة ما إذا كان إما أن يناسب هدفي، أو إذا كان هناك شيء آخر سيكون أفضل.

لم أكن برمجة في Java أو Python، لذلك قبل أن أبدأ في تعلم لغات جديدة، آمل أن أحصل على بعض النصائح حول الطريق الذي يجب علي اتبعه أو توصيات أخرى.

هل كانت مفيدة؟

المحلول

ما تصفه هو اسمه الكيان الاعتراف. وبعد لذلك أوصي بالتحقق من الآخر أسئلة فيما يتعلق بهذا الموضوع إذا لم ترها بالفعل. هذه يشبه الإجابة الأكثر فائدة بالنسبة لي.

لا أستطيع التعليق حقا حول ما إذا كان NLTK أو Lingpipe مناسب لهذه المهمة على الرغم من النظر في الإجابات، يبدو أن هناك عددا قليلا من الموارد الأخرى المكتوبة في جافا.

ميزة واحدة من الذهاب مع NLTK هي أن بيثون يمكن الوصول إليها للغاية كلغة. الميزة الأخرى هي أن كتاب nltk يوفر (وهو متاح مجانا) مقدمة لكل من بيثون و NLTK في نفس الوقت، والتي ستكون مفيدة لك.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top