English Lexicon per la correzione Ricercare
-
23-09-2019 - |
Domanda
Sto costruendo un correttore ortografico per le query dei motori di ricerca per l'attuazione del metodo descritto in " ortografia correzione come un processo iterativo che sfrutta la conoscenza collettiva di web utenti ".
L'approccio di alto livello è la seguente: per una determinata query, venire con possibili candidati di correzione (parole del log di query entro una certa distanza di modifica) di ogni unigram e bigram, quindi eseguire una ricerca di Viterbi modificato per trovare il più probabile sequenza di candidati date frequenze sui bigrammi. Ripetere questo processo fino a quando la sequenza è di massima probabilità.
La modifica alla ricerca Viterbi è tale che se due parole adiacenti sono entrambi trovati in un lessico attendibile, al massimo una può essere corretto. Ciò è particolarmente importante per evitare la correzione di adeguato-farro query una sola parola alle parole di frequenza più alta.
La mia domanda è dove trovare un tale lessico. Dovrebbe essere in inglese e contengono nomi propri (primo / cognomi, luoghi, nomi di marchi, ecc) che possono presentarsi nelle query di ricerca così come comuni e non comuni parole inglesi. Anche una spinta nella direzione giusta sarebbe utile.
Inoltre, se qualcuno sta leggendo questo e ha qualche suggerimento di miglioramento sulla metodologia fornita sul giornale, io sono aperto a quelle pure, dato che questa è la mia prima incursione nel NLP.
Soluzione
Il meglio lessico per questo scopo è probabilmente il Google Web 1T serie di dati 5 grammi.
http://www.ldc.upenn.edu/Catalog /CatalogEntry.jsp?catalogId=LDC2006T13
Purtroppo, non è libero a meno che la vostra università è membro di LDC.
Si potrebbe anche provare il corpora in pacchetti come Python NLTK, ma quello di Google sembra essere la migliore per il tuo scopo in quanto è legato alla query di ricerca già.