Question

J'ai été en utilisant beaucoup de différents corpus pour le traitement du langage naturel, et j'ai cherché un corpus qui a été annotée avec WordNet mot sens.

Je comprends qu'il n'y a probablement pas un grand corpus avec ces informations, étant donné que les besoins de corpus à construire manuellement, mais il doit y avoir quelque chose à partir de.

Aussi, s'il n'y a pas un corpus existe, est-il au moins un sens base de données ngram annotée (avec quel pourcentage du temps un mot est chacun de ses définitions, ou un compte numérique de chaque définition wordnet selon la façon commune le sens de mot est)?

Était-ce utile?

La solution

Three prominent corpora annotated for WordNet:

Autres conseils

Some of the SENSEVAL (now SEMEVAL) data is annotated with WordNet.

you can use senseval2, for java there is a semcor format and (jSemcor API) and also senseval3. these two corpus are used for Word sense disambiguation.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top