ما هي نقطة انطلاق جيدة لأي شخص مهتم في معالجة اللغة الطبيعية?[مغلقة]

StackOverflow https://stackoverflow.com/questions/212219

  •  03-07-2019
  •  | 
  •  

سؤال

السؤال

حتى لقد جاء مؤخرا مع بعض ممكن المشاريع التي سوف تضطر إلى التعامل مع الناشئة 'معنى' من النص مقدم و إنشاؤها من قبل المستخدمين.

معالجة اللغة الطبيعية هو الحقل الذي يتعامل مع هذا النوع من القضايا ، و بعد بعض البحوث الأولية وجدت OpenNLP محور و جامعة التعاون تحب attempto المشروع.و ستاكوفيرفلوو له هذا.

إذا كان أي شخص يمكن أن تصل لي بعض الموارد من الابحاث وأوراق introductionary النصوص إلى واجهات برمجة التطبيقات, سأكون أكثر سعادة من 6 سنوات طفل صغير فتح له هدايا عيد الميلاد!

التحديث

من خلال واحدة من التوصيات وجدت opencyc ('أكبر شركة في العالم والأكثر اكتمالا العامة قاعدة المعارف المنطقية المنطق محرك').حتى أكثر مذهلة لا تزال هناك مشروع المقطر نسخة من opencyc يسمى الخيمة نبات.ويضم الدلالي البيانات في قوات الدفاع الرواندية/البومة/skos n3 الجملة.

لقد تعثرت أيضا على antlr, محلل مولد 'بناء التعرف والمترجمين الفوريين المجمعين ، و مترجمين من الوصف النحوية'.

و هناك سؤال هنا لي من قبل ، أن القوائم طن من حرة ومفتوحة البيانات.

شكرا ستاكوفيرفلوو المجتمع!

هل كانت مفيدة؟

المحلول

صعب جدا البرمجة اللغوية العصبية هو أوسع بكثير من معظم الناس يعتقدون أنه هو.في الأساس, اللغة يمكن أن تكون مقسمة إلى عدة فئات ، والتي سوف تتطلب منك أن تتعلم أشياء مختلفة تماما.

قبل ان ابدأ اسمحوا لي أن أقول لكم أنني شك سيكون لديك أي نجاح ملحوظ (كما المهنية ، على الأقل) دون وجود درجة في بعض (وثيق الصلة) الحقل.هناك الكثير من نظرية تشارك معظم الاشياء الجافة و من الصعب معرفة.سوف تحتاج إلى الكثير من القدرة على التحمل و الأهم من ذلك كله:الوقت.

إذا كنت مهتما في معنى النص, حسنا, هذا هو الشيء الكبير المقبل.محركات البحث الدلالي المتوقع الشروع في الويب 3.0 لكن نحن الآن من "هناك" حتى الآن.استخراج المنطق من نص يعتمد على عدة خطوات:

  • عملية تحويل البيانات إلى رموز Chunking
  • توضيح على المستوى المعجمي (الوقت الذباب مثل السهم ، ولكن ذباب الفاكهة مثل الموز.)
  • النحوية تحليل
  • التحليل الصرفي (متوترة ، الجانب ، القضية رقم ، غيرها)

قائمة صغيرة قبالة الجزء العلوي من رأسي.هناك المزيد :-), و المزيد من التفاصيل إلى كل نقطة.على سبيل المثال عندما أقول "إعراب" ما هذا ؟ هناك العديد من مختلفة تحليل الخوارزميات و هناك تماما كما العديد من تحليل الشكليات.من بين أقوى هي شجرة مجاورة النحوي و رئيس يحركها هيكل العبارة النحوي.ولكن كلاهما لا يكاد يستعمل في المجال (الآن).عادة, سوف يكون التعامل مع بعض نصف خبز توليدي النهج سوف تضطر إلى إجراء التحليل الصرفي نفسك.

الذهاب من هناك إلى دلالات خطوة كبيرة.بناء الجملة/دلالات واجهة تعتمد على حد سواء ، النحوية ، و الدلالي إطار يعمل و لا يوجد عمل واحد حل حتى الآن.على الجانب الدلالي ، الكلاسيكية توليدي دلالات, ثم هناك الخطاب نظرية التمثيل, ديناميكية دلالات, و الكثير.حتى المنطقية الشكلية كل شيء على أساس لا تزال غير واضحة المعالم.يقول البعض ينبغي للمرء أن استخدام الدرجة الأولى المنطق, لكن هذا لا يبدو كافيا ؛ ثم هناك intensional المنطق ، مونتاج ، ولكن يبدو معقدا للغاية ، و حسابيا غير مجدية.هناك أيضا هو المنطق الحيوي (Groenendijk و Stokhof كان لها السبق في هذه الأشياء.الاشياء العظيمة!) ومؤخرا جدا هذا الصيف في الواقع ، يروين Groenendijk عرض جديد الشكلية ، فضولي دلالات, أيضا مثيرة جدا للاهتمام.

إذا كنت تريد أن تبدأ على مستوى بسيط جدا, قراءة بلاكبيرن و بوس (2005), انها الاشياء العظيمة ، بحكم الواقع مقدمة الحسابية دلالات!كنت مؤخرا تمديد نظام لتغطية القسم-نظرية الأسئلة (مسألة الرد هو الوحش!), كما اقترح Groenendijk و Stokhof (1982) ، ولكن للأسف ، نظرية لديه تعقيد O(n2) على نطاق الأفراد.أثناء القيام بذلك ، وجدت B&B أن يكون قليلا ، erhm... hackish في الأماكن.لا يزال, أنها سوف حقا تساعدك على الغوص في الحسابية دلالات, و هو لا يزال معرضا مؤثرة جدا من ما يمكن القيام به.كما أنها تستحق المزيد بارد-نقاط عن تنفيذ القواعد التي استقرت في لب الخيال (فيلم).

و بينما أنا في التقاط Prolog.الكثير من البحوث في الحسابية دلالات يستند إلى حاسوب. تعلم فاتحة الآن! هو مقدمة جيدة.يمكنني أن أوصى أيضا "فن حاسوب" و كوفينغتون هو "فاتحة البرمجة في العمق" و "معالجة اللغة الطبيعية عن حاسوب المبرمجين" السابق الذي هو متاح مجانا على الإنترنت.

نصائح أخرى

تشومسكي هو الخطا المصدر أن ننظر إلى البرمجة اللغوية العصبية (و يقول قدر نفسه بشكل قاطع) - انظر:"الأساليب الإحصائية واللغويات"قبل Abney.

Jurafsky و مارتن, المذكورة أعلاه, هو المرجعية القياسية, ولكن أنا شخصيا أفضل مانينغ و Schütze.إذا كنت جادا في البرمجة اللغوية العصبية عليك ربما تريد أن تقرأ على حد سواء.هناك أشرطة الفيديو من أحد مانينغ الدورات المتاحة على الانترنت.

إذا كنت من خلال الحصول على حاسوب حتى الفصل DCG في تعلم حاسوب الآن! السيد ديميتروف المذكورة أعلاه، سيكون لديك بداية جيدة في الحصول على بعض دلالات في النظام الخاص بك، منذ حاسوب يوفر لك طريقة بسيطة جدا للحفاظ على قاعدة بيانات من المعرفة والاعتقاد، والتي يمكن تحديثها من خلال سؤال الإجابة.

وفيما يتعلق الأدب، لدي توصية رئيسية واحدة لك: نفد وشراء <لأ href = "http://www.cs.colorado.edu/~martin/slp.html" يختلط = "نوفولو noreferrer" > الكلام ومعالجة اللغة التي كتبها Jurafsky ومارتن. فمن حد كبير <م> من كتاب في البرمجة اللغوية العصبية (الفصل الأول على شبكة الإنترنت)؛ المستخدمة في المقررات الجامعية frillion ولكن أيضا قراءة للغاية لعدم غوي وذات توجه عملي، وفي نفس الوقت الذهاب إلى حد ما في عمق المشاكل اللغويات. أنا حقا لا يمكن أن توصي بما فيه الكفاية. يبدو الفصول 17 و 18 و 21 ليكون ما كنت تبحث عن (14 و 15 و 18 في الطبعة الأولى)؛ أنها تظهر لك بسيط تدوين امدا الذي يترجم بشكل جيد إلى حاسوب DCG مع الميزات.

وأوه، راجع للشغل، على الحصول على درجة الماجستير في اللغويات. إذا دلالات NL هو ما كنت في، فما استقاموا لكم فاستقيموا بدلا نوصي باتخاذ جميع الدورات المتعلقة AI-يمكنك العثور على (على الرغم من أن أي من المقررات الدراسية على دلالات "عادي" اللغوية والمنطق ودلالات منطقية، <وأ href = "HTTP: // en.wikipedia.org/wiki/Discourse_Representation_Theory "يختلط =" نوفولو noreferrer "> DRT أو LFG / HPSG / CCG، إعراب NL، نظرية لغوية رسمية، وما إلى ذلك لن يضر ...)

والأدب قراءة تشومسكي الأصلي ليست مفيدة حقا. بقدر ما أعرف أن هناك أي تطبيقات الحالية التي <م> مباشرة تتوافق مع نظرياته، كل الاشياء المفيدة له يندرج حد كبير من النظريات الأخرى (ولمن يبقى القريب اللغويين عن أي مسألة وقت سوف استيعاب المعرفة من تشومسكي عن طريق التناضح).

وكنت في غاية يوصي اللعب حولها مع NLTK و القراءة في NLTK كتاب . وNLTK قوية جدا وسهلة للوصول الى.

قد تتمكن من محاولة قراءة ما يصل قليلا في العبارة منظم grammers, الذي هو في الأساس الرياضيات وراء الكثير من اللغة processessing.انها في الواقع ليست ثقيلة يجري إلى حد كبير على أساس مجموعة نظرية الرسم البياني.لقد درست ذلك منذ شهور عديدة كجزء من الرياضيات المنفصلة الحال ، و أنا أعتقد أن هناك العديد من المراجع المتاحة في هذه المرحلة.

تحرير:ليس كما كنت أتوقع على جوجل, على الرغم من هذا واحد يبدو أن التعلم الجيد المصدر.

واحدة من المستكشفين الأوائل في البرمجة اللغوية العصبية هي نعوم تشومسكي. وكتب الكتب الصغيرة حول هذا الموضوع في 50s من خلال 70S. قد تجد أن قراءة مثيرة للاهتمام.

وCycorp ديك لكيفية تستمد قاعدة المعرفة مراكز الشباب الإصلاحية معناها من الجمل.

ومن خلال الاستفادة من قاعدة معرفية هائلة من الحقائق المشتركة، يمكن للنظام تحديد تحليل الأكثر منطقية من الحكم.

ومكان أسهل لتبدأ اللبنات هو نظرة على وثائق للحصول على حزمة الذي يحاول القيام بذلك. أنصح بيثون [أدوات اللغة الطبيعية (NLTK) 1 ، ولا سيما بسبب مكتوبة جيدا، مجانا كتاب ، وهي مليئة بالأمثلة. انها لن تحصل على كل وسيلة إلى ما تريد (والذي هو مشكلة AI-الثابت)، لكنها ستعطي لكم قدم جيدة. NLTK ديه موزعي، chunkers، قواعد النحو خالية من السياق، وأكثر من ذلك.

وهذا هو على حقا عناصر الثابت. فما استقاموا لكم فاستقيموا تبدأ عن طريق الحصول على ما لا يقل عن درجة الماجستير في اللغويات، ومن ثم العمل على تحقيق درجة الدكتوراه في علوم الكمبيوتر، مع التركيز على البرمجة اللغوية العصبية.

والمشكلة هي أن معظمنا لم يكن لديك فهم ما هي اللغة. وبدون هذا الفهم، انها دموية صعبة لتنفيذ الحل.

وتعليقات أخرى تعطي بعض القراءات، التي هي على الارجح غرامة إذا كنت تريد أن تبدأ اللعب حولها مع مجموعة فرعية صغيرة من المشكلة، ولكن من أجل التوصل إلى حل قوي حقا، ثم لا توجد طرق مختصرة. كنت في حاجة إلى خلفية أكاديمية في كل التخصصات.

ومقدمة للقراءة ممتعة جدا هو غريزة اللغة ستيفن بينكر. وغني في الاشياء تشومسكي وكما يروي قصص مثيرة للاهتمام من زاوية البيولوجيا التطورية. قد يكون من المفيد البدء مع شيء من هذا القبيل قبل الغوص في أوراق تشومسكي والأعمال ذات الصلة، إذا كنت جديدا على هذا الموضوع.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top