Domanda

Sono stato utilizzando un sacco di corpora diverso per l'elaborazione del linguaggio naturale, e ho cercato per un corpus che è stato annotato con WordNet Word Sensi.

Mi rendo conto che probabilmente non è un grande corpus di queste informazioni, dal momento che le esigenze corpus da costruire manualmente, ma ci deve essere qualcosa di andare fuori di.

Anche se non v'è un corpus in atto, c'è almeno un database senso annotato Ngram (con quale percentuale del tempo una parola è ciascuna delle sue definizioni, o un conteggio numerico di ogni definizione wordnet a seconda di come comune la parola senso è)?

È stato utile?

Soluzione

Tre corpi di primo piano commentato per WordNet:

Altri suggerimenti

Alcuni dei SENSEVAL (ora SEMEVAL dati) è annotata con WordNet.

è possibile utilizzare senseval2, per Java v'è un formato semcor e (jSemcor API) e anche senseval3. questi due corpus sono utilizzati per Word senso disambiguazione.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top