Erstellen Sie ein natürliches Sprachmodell, das Fehlschriften festlegt

https://stackoverflow.com/questions/2236858

19-09-2019
|

Frage

Was sind Bücher darüber, wie man ein solches Programm für natürliche Sprache erstellt:

input: I got to TALL you
output: I got to TELL you

input: Big RAT box
output: Big RED box

in: hoo un thum zend three
out: one thousand three

Es muss das Sprachmodell haben, das es ermöglicht, vorherzusagen, welche Wörter falsch geschrieben sind!

Was sind die besten Bücher, wie man ein solches Werkzeug erstellt?

PS Gibt es kostenlose Webservices zum Schreiben? Von Google vielleicht? .. .. ..

Lösung

Peter Norvig hat eine großartige Rechtschreibprüfung. Vielleicht kann dir das helfen.

Andere Tipps

Sie haben mindestens drei Optionen

Sie können ein Programm schreiben, das die Sprache versteht (dh was ein Wort bedeutet). Dies ist heute ein Thema für die Forschung. Erwarten Sie die ersten Ergebnisse, wenn Sie einen Computer kaufen können, der schnell genug ist, um ein solches Programm auszuführen (was wahrscheinlich in 10 Jahren ist, wenn Computer 1000 -mal schneller geworden sind als heute).
Verwenden Sie einen riesigen Korpus (Textdokumente), um a zu trainieren Verstecktes Marcov -Modell.
Verwenden Sie einen riesigen Korpus und generieren Sie Statistiken über ~~Vierlinge~~ N-Gramm, dh wie oft ein Tupel von n Wörtern erscheint. Ich habe keinen Link dafür, aber die Idee ist, dass einige Wörter immer im Kontext anderer Wörter erscheinen. Wenn Sie also Ihren Text in 4-Gramm analysieren und in Ihrer Datenbank nachschlagen und Sie keine finden können, besteht die Möglichkeit, dass mit dem aktuellen Tupel etwas nicht stimmt. Der nächste Schritt besteht darin, alle möglichen Übereinstimmungen zu finden (andere 4-Gramm, die einen kleinen Soundex oder einen ähnlichen Abstand zum Strom haben) und versuchen Sie es mit der höchsten Frequenz.

Google hat diese Daten für einige Sprachen und Sie finden möglicherweise mehr in Google Labs.

Bearbeiten] Nach einigem Googeln fand ich endlich den Link: on diese Seite, Sie können Englisch 1 bis 5 Gramm kaufen, die Google im gesamten Internet auf 6 DVDs gesammelt hat.

Googeln für "Google Spelling Statistics N-Grams" wird auch einige interessante Links aufnehmen.

Soundex (Wiki) ist eine Option

Es gibt einige Java -Bibliotheken für die Verarbeitung natürlicher Sprache, die Ihnen helfen, einen Rechtschreibkorrektor zu implementieren. Aber Sie haben nach einem Buch gefragt. Grundlagen der statistischen Verarbeitung natürlicher Sprache Von Christopher D. Manning und Hinrich Schütze sieht nach einer guten Option aus. Der erste Autor ist ein Stanford -Professor, der eine Gruppe leitet, die natürliche Sprachverarbeitung und Entwicklung von Java -Bibliotheken und NLP -Ressourcen führt, die viele Menschen verwenden.

Im Dev Days London, Michael Sparks präsentierte ein Python -Skript, das genau dafür codiert wurde. Es war überraschend sehr einfach! Sehen Sie, ob Sie in Google finden können. Vielleicht hat hier jemand den Link.

Lizenziert unter: CC-BY-SA mit Zuschreibung

Nicht verbunden mit StackOverflow