Question

Je construis un correcteur d'orthographe pour les requêtes des moteurs de recherche en mettant en œuvre la méthode décrite dans « correction orthographique comme un processus itératif qui exploite la connaissance collective des utilisateurs Web ».

L'approche de haut niveau est la suivante: pour une requête donnée, venir avec les candidats de correction possibles (mots dans le journal de requête dans une certaine distance d'édition) de chaque unigramme et bigramme, puis effectuez une recherche Viterbi modifié pour trouver la séquence la plus probable des candidats donnés fréquences bigrammes. Répéter ce processus jusqu'à ce que la séquence est la probabilité maximale.

La modification à la recherche de Viterbi est telle que si deux mots adjacents sont tous deux trouvés dans un lexique de confiance, au plus on peut corriger. Ceci est particulièrement important pour éviter la correction des requêtes d'un seul mot correctement orthographiés à des mots de fréquence plus élevée.

Ma question est de savoir où trouver un tel lexique. Il doit être en anglais et contenir les noms propres (premier / noms, lieux, noms de marques, etc.) susceptibles d'apparaître dans les requêtes de recherche, ainsi que des mots anglais communs et hors du commun. Même un coup de pouce dans la bonne direction serait utile.

En outre, si quelqu'un est en train de lire ceci et a des suggestions d'amélioration sur la méthodologie fournie dans le document, je suis ouvert à ceux et étant donné que ceci est ma première incursion dans la PNL.

Était-ce utile?

La solution

Le meilleur lexique à cette fin est probablement le Google Web 1T 5 grammes ensemble de données.

http://www.ldc.upenn.edu/Catalog /CatalogEntry.jsp?catalogId=LDC2006T13

Malheureusement, il est libre à moins que votre université est membre de LDC.

Vous pouvez également essayer le corpus en paquets comme Python NLTK, mais celui de Google semble être le mieux à vos besoins, car il est lié aux requêtes de recherche déjà.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top