Obtenga probabilidades de POS de la herramienta de línea de comandos de Wordnet

StackOverflow https://stackoverflow.com/questions/6388343

  •  29-10-2019
  •  | 
  •  

Pregunta

Estoy escribiendo algunos experimentos con ruby accediendo a wordnet a través de la herramienta de línea de comandos wn porque dejé de hacer funcionar la gema de wordnet.

Quiero poder buscar las frecuencias de los sentidos, en última instancia, poder calcular la probabilidad de que una palabra dada sea un sustantivo / adjetivo / verbo / adverbio.

Probé la documentación pero no siempre es tan explícita.

¿Es esto posible sin usar solo la herramienta wn?¿Estoy pensando en que Wordnet incluye esta información?

¿Fue útil?

Solución

Por lo que puedo decir, no incluye frecuencias per se, aunque los synsets están ordenados de mayor a menor frecuencia en los resultados devueltos.

Puede obtener las frecuencias reales de varias formas.Quizás el más confiable es usar un corpus etiquetado POS como el Penn TreeBank, luego simplemente calcule los valores usted mismo.Desafortunadamente, obtener una copia gratuita es difícil si no estás en una universidad.Otra opción es construir su propio corpus (tal vez de blogs, libros del Proyecto Gutenberg, Wikipedia, lo que sea), ejecutar un etiquetador POS sobre él y luego calcular las frecuencias a partir de eso.Obviamente, este método estará sesgado, pero es mucho más fácil que etiquetar un corpus manualmente.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top