Splitting Zeichenfolge auf wahrscheinlichen Grenzen englischen Wortes

https://stackoverflow.com/questions/2258588

text-analysis

20-09-2019
|

Frage

I Adobe Acrobat Pro OCR-Funktion vor kurzem ein Japanisches Wörterbuch zu verarbeiten verwendet. Die Gesamtqualität der Ausgabe ist in der Regel ziemlich viel besser als ich gehofft hatte, aber Wortgrenzen in den englischen Teilen des Textes oft verloren gegangen waren. Zum Beispiel, hier ist eine Zeile aus meiner Datei:

softening;weakening(ofthemarket)8 CHANGE [transform] oneselfINTO,takethe form of; disguise oneself

konnte ich um und legen Sie die fehlenden Wortgrenzen überall, aber dies Zugabe wäre, was bereits eine wesentliche Aufgabe. Ich hoffe, dass es vielleicht Software gibt, die Text wie diese analysieren können, wo einige der Wörter zusammen laufen, und den Text auf wahrscheinliche Wortgrenzen aufgeteilt. Gibt es ein solches Paket?

Ich verwende Emacs, soll es so sein würde extra süß, wenn das Paket in Frage war bereits ein Paket Emacs oder leicht in Emacs integriert werden kann, so dass ich einfach auf einer Linie mein Cursor wie die oben setzen könnte und wiederholt invoke einige Befehle, in absteigender Reihenfolge der wahrscheinlichen Richtigkeit die Linie auf Wortgrenzen aufspaltet.

Lösung 2

Ich konnte nichts finden, entweder, und am Ende gehen mit einem interaktiver Ansatz .

Andere Tipps

Ich bin nicht bewusst alles, was bereits vorhanden ist.

Die einfachste Methode, passen einfach die Menge der längsten Wörter in der Zeichenfolge mit einem Wörterbuch enthalten ist. Natürlich könnte es viele Worte, so dass Sie für alle Kombinationen und Permutationen Plan haben würde. Es ist rechnerisch teuer es auf diese Art und Weise zu tun, aber ziemlich schnell zu schreiben.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow