تحليل المستندات مع DSL

https://stackoverflow.com/questions/2189943

25-09-2019
|

سؤال

أحاول التوصل إلى وسيلة للذهاب إلى حوالي مليون مستندات هي مستندات رسمية (من أجل الحجج ، فهي وثائق أطروحة). أنها ليست كلها موحدة ولكنها قريبة بما فيه الكفاية. إنها عناوين وأقسام وفقرات وما إلى ذلك.

وهكذا في رأيي ، فإن أفضل طريقة للقيام بذلك هي إنشاء EBNF مع جميع المجموعات الممكنة من العنوان: = TITLE | تيتر على سبيل المثال.

أنا لست مهتمًا جدًا بالتوصل إلى EBNF. قلقي الرئيسي هو كيفية تحقيق التحليل. لقد نظرت إلى Antlr و Oslo و Irony وعدد كبير من الآخرين ولكن ليس لدي الخبرة فيهم للحكم على ما إذا كانت ستكون مثالية لمهمتي.

لذا ، سؤالي إلى المستفادة بينكم

ما هي أداة DSL التي تنصح بها لتحليل المستندات على هذا النطاق؟
ما هي أداة DSL هي الأكثر دقة في التحليل بعد التسامح مع المطابقة (أي ، هل يتعين علينا تحديد قواعد الأحرف الكبيرة والصغيرة ، ماذا عن الأرقام مقابل الأرقام الرومانية واللغة الأجنبية (الفرنسية).
هل هناك عملية/خوارزمية لم أفكر فيها أنك توصي كبديل لـ DSL؟ (إعادة الكتابة من نقطة الصفر خيار ولكني أود الحصول على شيء يعمل بسرعة).
هل حاول أي شخص إضافة التعلم والذكاء إلى الخوارزميات لتحليل DSLS (فكر في الخوارزميات الجينية والشبكات العصبية)؟
هل يمكنك استخدام أدوات DSL هذه في بيئة الإنتاج؟

منصة التطوير المفضلة لدي هي C#. أذكر ذلك لأنه من الناحية المثالية ، أود دمج أداة DSL في التعليمات البرمجية حتى نتمكن من العمل معها من التطبيقات الموجودة.

المحلول

صادفت أداة تسمى tinypg. إنه ليس ما أحتاجه تمامًا ولكن امتلاك رمز المصدر للنظر إليه سيسمح لي بتوليد ما أحتاجه.

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow