Frage

Ich baue eine Schreibkorrektur für Suchmaschinen-Abfragen durch die Methode in „ Rechtschreibkorrektur als iterativer Prozess, der das kollektive Wissen der Web-Nutzer “ausnutzt.

Die High-Level-Ansatz folgt als: für eine bestimmte Abfrage, kommen mit möglichen Korrekturkandidaten (Wörter im Abfrageprotokoll innerhalb eines bestimmten Editierdistanz) jedes Unigramm- und Bigramm, führen dann eine modifizierte Viterbi-Suche das finden wahrscheinlichste Folge von Kandidaten gegeben Bigramm Frequenzen. Wiederholen Sie diesen Vorgang, bis die Folge maximaler Wahrscheinlichkeit ist.

Die Modifikation der Viterbi-Suche ist so, dass, wenn zwei benachbarte Worte sowohl in einem vertrauenswürdigen Lexikon zu finden sind, höchstens eine korrigiert werden kann. Dies ist besonders wichtig für die von richtig buchstabierten Einzelwortabfragen Wörter mit höherer Frequenz zu vermeiden Korrektur.

Meine Frage ist, wo ein solches Lexikon zu finden. Es sollte auf Englisch sein und Eigennamen (ersten / letzten Namen, Orte, Markennamen, usw.) enthält, wahrscheinlich in Suchanfrage sowie gewöhnliche und ungewöhnliche englische Worte zu zeigen. Selbst ein Schub in der richtigen Richtung wäre sinnvoll.

Auch wenn jemand diese zu lesen und hat keine Vorschläge zur Verbesserung der Methodik in dem Papier zugeführt wird, bin ich zu denen offen als auch gegeben, dass dies mein ersten Ausflug in NLP.

War es hilfreich?

Lösung

Das beste Lexikon hierfür ist wahrscheinlich der Google Web 1T 5-Gramm-Datensatz.

http://www.ldc.upenn.edu/Catalog /CatalogEntry.jsp?catalogId=LDC2006T13

Leider ist es nicht frei, es sei denn, Ihre Universität ein Mitglied der LDC ist.

Sie können auch die Corpora in Paketen wie Python NLTK versuchen, aber die Google scheint das Beste für Ihren Zweck zu sein, da es verwandt ist bereits Abfragen zu suchen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top