Domanda

Sto costruendo un correttore ortografico per le query dei motori di ricerca per l'attuazione del metodo descritto in " ortografia correzione come un processo iterativo che sfrutta la conoscenza collettiva di web utenti ".

L'approccio di alto livello è la seguente: per una determinata query, venire con possibili candidati di correzione (parole del log di query entro una certa distanza di modifica) di ogni unigram e bigram, quindi eseguire una ricerca di Viterbi modificato per trovare il più probabile sequenza di candidati date frequenze sui bigrammi. Ripetere questo processo fino a quando la sequenza è di massima probabilità.

La modifica alla ricerca Viterbi è tale che se due parole adiacenti sono entrambi trovati in un lessico attendibile, al massimo una può essere corretto. Ciò è particolarmente importante per evitare la correzione di adeguato-farro query una sola parola alle parole di frequenza più alta.

La mia domanda è dove trovare un tale lessico. Dovrebbe essere in inglese e contengono nomi propri (primo / cognomi, luoghi, nomi di marchi, ecc) che possono presentarsi nelle query di ricerca così come comuni e non comuni parole inglesi. Anche una spinta nella direzione giusta sarebbe utile.

Inoltre, se qualcuno sta leggendo questo e ha qualche suggerimento di miglioramento sulla metodologia fornita sul giornale, io sono aperto a quelle pure, dato che questa è la mia prima incursione nel NLP.

È stato utile?

Soluzione

Il meglio lessico per questo scopo è probabilmente il Google Web 1T serie di dati 5 grammi.

http://www.ldc.upenn.edu/Catalog /CatalogEntry.jsp?catalogId=LDC2006T13

Purtroppo, non è libero a meno che la vostra università è membro di LDC.

Si potrebbe anche provare il corpora in pacchetti come Python NLTK, ma quello di Google sembra essere la migliore per il tuo scopo in quanto è legato alla query di ricerca già.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top