كيفية البدء في استخراج المعلومات؟

https://stackoverflow.com/questions/573620

05-09-2019
|

سؤال

هل يمكن أن توصي بمسار تدريبي للبدء وتصبح جيدا في استخراج المعلومات. بدأت في القراءة حول ذلك للقيام بأحد المشروع هوايتي وأدرك سرعان ما يجب أن أكون جيدا في الرياضيات (الجبر، الإحصائيات، PROB). لقد قرأت بعض الكتب التمهيدية حول مواضيع الرياضيات المختلفة (والكثير من المرح). تبحث عن بعض التوجيه. الرجاء المساعدة.

تحديث: فقط للإجابة على أحد التعليق. أنا مهتم باستخراج معلومات النص.

المحلول

فقط للإجابة على أحد التعليق. أنا مهتم باستخراج معلومات النص.

اعتمادا على طبيعة مشروعك، معالجة اللغة الطبيعية, ، و اللغويات الحاسوبية يمكن أن يأتي كلاهما في متناول يدي، تقدم أدوات لقياس واستخراج الميزات من المعلومات النصية، وتطبيق التدريب أو التسجيل أو التصنيف. وتشمل كتب المبلغين الجيدة الذكاء الجماعي في برمجة OREILLY (الفصول حول "البحث والترتيب"، تصفية المستندات، وربما أشجار القرار).

المشاريع المقترحة باستخدام هذه المعرفة: وضع العلامات على نقاط البيع (جزء من الكلام)، والتعرف على الكيان المسمى (القدرة على التعرف على الأسماء والأماكن والتواريخ من نص عادي). يمكنك استخدام Wikipedia كدولة تدريبية، نظرا لأن معظم المعلومات المستهدفة مستخرجة بالفعل في Infoboxes، فقد يوفر لك هذا القدر المحدود من ملاحظات القياس.

المطرقة الكبيرة الأخرى في IE هي البحث، وهو حقل لا ينبغي التقليل منه. مرة أخرى، يوفر كتاب Oreilly بعض مقدمة في الترتيب الأساسي؛ بمجرد أن يكون لديك كائن كبير من النص المفهرس، يمكنك القيام ببعض المهام IE معها حقا. الدفع بيتر نورفيج: النظري من البيانات كنقطة انطلاق، ومحفز جيد للغاية، فإن Maybe يمكنك إعادة تشغيل بعض نتائجها كممارسة تعليمية.

كحذر الصدارة، أعتقد أنني ملزم بإخبارك، أن استخراج المعلومات هو الصعب. وبعد أول 80٪ من أي مهمة معينة عادة تافهة؛ ومع ذلك، فإن صعوبة كل نسبة إضافية للمهام IE عادة ما تكون تنمو بشكل كبير في التطوير، ووقت البحوث. كما أنها تعمل بشكل كبير على مستوى معلومات عالية الجودة حاليا في أوراق بيضاء غامضة (منحة جوجل هل صديقك) - هل تحقق منهم بمجرد حرق يدك عدة مرات. ولكن الأهم من ذلك، لا تدع هذه العقبات تلتقط لك، فهي بالتأكيد فرص كبيرة لإحراز تقدم في هذا المجال.

نصائح أخرى

أود أن أوصي الكتاب الممتاز مقدمة لاسترجاع المعلومات بواسطة كريستوفر د. مانينغ، برابكار راغافان وهينريش شوتزي. يغطي مساحة واسعة من القضايا التي تشكل أساسا رائعا وحديثا لاستخراج المعلومات وتتوفر عبر الإنترنت في النص الكامل (بموجب الرابط المحدد).

أود أن أقترح عليك إلقاء نظرة على مجموعة أدوات اللغة الطبيعية (NLTK) و ال كتاب nltk. وبعد كلاهما متاح مجانا وأدوات تعليمية رائعة.

لا تحتاج إلى أن تكون جيدا في الرياضيات للقيام بذلك، فما عليك أن أفهم كيف تعمل الخوارزمية، والتجربة في الحالات التي تحتاج إلى أداء النتائج المثلى، والحجم الذي تحتاج إليه لتحقيق مستوى الدقة المستهدف والعمل مع ذلك. أنت تعمل بشكل أساسي مع خوارزميات وبرمجة وجوانب نظرية التعلم CS / AI / آلة لا تكتب ورقة الدكتوراه على بناء خوارزمية جديدة لتعلم الآلات حيث يجب عليك إقناع شخص ما عن طريق المبادئ الرياضية لماذا تعمل الخوارزمية حتى لا أوافق تماما مع تلك الفكرة. هناك فرق بين العملي والنظرية - كما نعلم جميعا أن علماء الرياضيات عالقوا بشكل أكبر من النظرية ثم ممارسة الخوارزميات لإنتاج حلول أعمال قابلة للتطبيق. ومع ذلك، تحتاج إلى القيام ببعض الخلفية التي تقرأ كل من الكتب في NLP وكذلك أوراق دفتر اليومية لمعرفة الأشخاص الذين وجدوا من نتائجهم. IE هو مجال محدد للسياق للغاية حتى تحتاج إلى تحديد أولا في سياق تحاول استخراج المعلومات - كيف تحدد هذه المعلومات؟ ما هو نموذجك المنظم؟ يفترض أنك استخراج من مجموعات البيانات شبه غير منظم. يمكنك أيضا أن تزن أيضا ما إذا كنت ترغب في الاقتراب من IE الخاص بك من نهج بشري قياسي ينطوي على أشياء مثل التعبيرات العادية ومطابقة الأنماط أو هل ترغب في القيام بذلك باستخدام طرق تعلم الآلة الإحصائية مثل سلاسل Markov. يمكنك حتى أن ننظر إلى النهج الهجينة.

نموذج عملية قياسي يمكنك اتباعه للقيام باستخراجك هو تكييف نهج استخراج البيانات / النص:

قبل المعالجة - تحديد وتوحيد بياناتك إلى استخراج من مصادر مختلفة أو محددة تطهير تجزئة / تصنيف بياناتك / التجميع / جمعية - Blackbox الخاص بك حيث سيتم إجراء معظم أعمال الاستخراج الخاصة بك بعد المعالجة - تطهير بياناتك مرة أخرى إلى المكان الذي تريده لتخزينها أو تمثلها كمعلومات

أيضا، تحتاج إلى فهم الفرق بين البيانات وما هي المعلومات. كما يمكنك إعادة استخدام معلوماتك المكتشفة كصادر بيانات لبناء المزيد من خرائط / الأشجار / الرسوم البيانية. كل شيء سياق للغاية.

الخطوات القياسية ل: إدخال> عملية> الإخراج

إذا كنت تستخدم Java / C ++، هناك الكثير من الأحمال من الأطر والمكتبات المتاحة يمكنك العمل معها. ستكون Perl لغة ممتازة للقيام بعمل استخراج NLP الخاص بك مع إذا كنت ترغب في القيام بالكثير من استخراج النص القياسي.

قد ترغب في تمثيل بياناتك ك XML أو حتى كرسم رسوم بيانية RDF (Web الدلالي) وللطراز السياقي المحدد الخاص بك، يمكنك بناء الرسوم البيانية العلاقة والجمعية التي سيتغير على الأرجح حيث تقوم بطلب المزيد والمزيد من طلبات الاستخراج. نشرها كخدمة مريحة كما تريد التعامل معها كمورد للمستندات. يمكنك حتى ربطها بمجموعات البيانات الخاضعة للمستشفى وبحول البحث عن الأوجه باستخدام Solr.

مصادر جيدة لقراءة هي:

كتيب اللغويات المحمولة ومعالجة اللغات الطبيعية
أسس معالجة اللغة الطبيعية الإحصائية
تطبيقات استخراج المعلومات في الاحتمال
مقدمة لمعالجة اللغة مع Perl و Prolog
معالجة الكلام واللغات (الجرافسكي)
نص البرمجة تطبيق التعدين
نص كتيب التعدين
نص ترويض
خوارزميات من شبكة الإنترنت الذكية
بناء تطبيقات البحث
مجلة IEEE.

تأكد من القيام بتقييم شامل قبل نشر هذه التطبيقات / الخوارزميات في الإنتاج حيث يمكن أن تزيد متلاغة متطلبات تخزين البيانات الخاصة بك. يمكنك استخدام AWS / Hadoop for Clustering، Mahout للتصنيف على نطاق واسع بين الآخرين. قم بتخزين مجموعات البيانات الخاصة بك في MongoDB أو مقالب غير منظم في Jackrabbit، إلخ. حاول تجربة النماذج الأولية أولا. هناك العديد من الأرشيفات التي يمكنك استخدامها لتأسيس التدريب الخاص بك على كوربوس رويترز، والنصفات، تريك، إلخ. يمكنك حتى تحقق من Alchemyapi، البوابة، UIMA، OPENNLP، إلخ.

إن استخراج البناء من النص القياسي أسهل ثم قل وثيقة ويب لذلك تصبح التمثيل في خطوة ما قبل المعالجة أكثر أهمية لتحديد ما هو بالضبط الذي تحاول استخراجه من تمثيل مستند موحد.

تشمل التدابير القياسية ما يلي: الدقة، استدعاء، قياس F1 بين الآخرين.

أختلف مع الأشخاص الذين يوصون في قراءة الذكاء الجماعي للبرمجة. إذا كنت ترغب في القيام بأي شيء من التعقيد المعتدل، فأنت بحاجة إلى أن تكون جيدا في الرياضيات التطبيقية وتمنحك PCI شعورا زائفا بالثقة. على سبيل المثال، عندما يتحدث عن SVM، تقول فقط أن LIBSVM هي طريقة جيدة لتنفيذها. الآن libsvm هي بالتأكيد حزمة جيدة ولكن من يهتم بالحزم. ما تحتاج إلى معرفته هو السبب في أن SVM يعطي النتائج الرائعة التي تعطيها وكيف تختلف بشكل أساسي عن طريقة تفكير Bayesian (وكيف فابنيك أسطورة).

IMHO، لا يوجد حل واحد لذلك. يجب أن يكون لديك قبضة جيدة على الجبر الخطي والاحتمالية ونظرية بايزيان. بايز، يجب أن أضيف، أمر مهم بالنسبة لهذا كأكسجين للبشر (مبالغ فيه قليلا ولكنك تحصل على ما أقصده، أليس كذلك؟). أيضا، الحصول على قبضة جيدة على التعلم الآلي. فقط باستخدام عمل أشخاص آخرين مناسب تماما ولكن اللحظة التي تريد أن تعرفها لماذا تم القيام بشيء ما بالطريقة التي كانت بها، سيتعين عليك معرفة شيء ما حول مل.

تحقق من هذين ذلك:

http://pindring.blogspot.com/01/01/learning-about-machine-learniing.html.

http://measuringmeasures.com/blog/1/15/learning-about-statistical-lenning.html.

http://measuringmeasures.com/blogox/2010/3/12/learning-about-machine-learning-2nd-ed.html.

حسنا، الآن هذا ثلاثة منهم :) / بارد

ويكيبيديا استخراج المعلومات المادة مقدمة سريعة.

على مستوى أكاديمي أكثر، قد ترغب في تخفيض ورقة مثل دمج نماذج استخراج الاحتمالية والتعدين البيانات لاكتشاف العلاقات والأنماط في النص.

إلق نظرة هنا إذا كنت بحاجة إلى خدمة المشاريع النير. تطوير نظام NER (ومجموعات تدريبية) هي مهمة مستهلكة ومرتفعة للغاية.

هذا هو القليل من الموضوع، ولكن قد ترغب في قراءة الذكاء الجماعي البرمجة من O'Reilly. يتعامل بشكل غير مباشر باستخراج معلومات النص، ولا يفترض الكثير من خلفية الرياضيات.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow