سلسلة تقسيم على الحدود المحتملة الكلمة الإنجليزية

StackOverflow https://stackoverflow.com/questions/2258588

  •  20-09-2019
  •  | 
  •  

سؤال

وأنا استخدمت مؤخرا أدوبي أكروبات برو ميزة OCR لمعالجة اليابانية كانجي القاموس. الجودة الشاملة من الناتج عموما لا بأس به على نحو أفضل مما كنت تأمل، ولكن في كثير من الأحيان قد فقدت حدود الكلمة في الأجزاء اللغة الإنجليزية من النص. على سبيل المثال، وهنا سطر واحد من ملفي:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

وأنا يمكن أن يرحل وإدراج حدود الكلمة المفقودة في كل مكان، ولكن هذا من شأنه أن يكون إضافة إلى ما هو قائم بالفعل مهمة كبيرة. آمل أن تكون موجودة هناك البرمجيات التي يمكن تحليل نص من هذا القبيل، حيث تعمل بعض الكلمات معا، وتقسيم النص على حدود الكلمة المحتملة. هل هناك مثل هذه الصفقة؟

وأنا باستخدام إيماكس، لذلك سأكون خارج الحلو إذا كانت الحزمة في السؤال بالفعل حزمة إيماكس أو يمكن أن تكون متكاملة بسهولة في إيماكس، لدرجة أنني يمكن ببساطة أضع المؤشر على خط مثل ما ورد أعلاه و مرارا وتكرارا استدعاء وبعض الأوامر التي يقسم خط على حدود الكلمة بالترتيب التنازلي من صحة محتملة.

هل كانت مفيدة؟

المحلول 2

وأنا لا يمكن أن تجد أي شيء سواء، وانتهى الأمر الذهاب مع أكثر <لأ href = "http://groups.google.com/group/gnu.emacs.help/browse_thread/thread/1b1ff620d89ee6db/910452e11493c735؟q = eefacm + ايماكس + التعرف الضوئي على الحروف # 910452e11493c735 "يختلط =" noreferrer نوفولو "> تفاعلية نهج .

نصائح أخرى

وأنا على علم بأي شيء موجود بالفعل.

وأبسط طريقة، هو مجرد تطابق مجموعة من أطول الكلمات الواردة في سلسلة الخاص بك ضد القاموس. بالطبع يمكن أن يكون هناك العديد من الكلمات، لذلك عليك أن خطة لكافة تركيبات والتباديل. انها مكلفة حسابيا ان تفعل ذلك بهذه الطريقة، ولكن سريعة إلى حد ما إلى الكتابة.

مرخصة بموجب: CC-BY-SA مع الإسناد
لا تنتمي إلى StackOverflow
scroll top