Pregunta

He estado utilizando muchos corpus diferentes para el procesamiento del lenguaje natural, y he estado buscando un corpus que haya sido anotado con los sentidos de palabras de WordNet.

Entiendo que probablemente no haya un gran corpus con esta información, ya que el corpus debe construirse manualmente, pero tiene que haber algo de qué salir.

Además, si no existe un corpus, ¿hay al menos una base de datos NGRAM anotada por el sentido (con qué porcentaje de tiempo una palabra es cada una de sus definiciones, o un recuento numérico de cada definición de WordNet dependiendo de qué sentido común sea el sentido de la palabra? es)?

¿Fue útil?

Solución

Tres corporativos prominentes anotados para WordNet:

Otros consejos

Algunos de los Senseval (ahora Semeval) Los datos se anotan con WordNet.

Puede usar SenseVal2, para Java hay un formato SEMCOR y (JSEMCOR API) y también SenseVal3. Estos dos corpus se usan para la desambiguación del sentido de las palabras.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top