Вопрос

Я использовал множество различных корпораций для обработки естественного языка, и я искал корпус, который был аннотирован с Wordnet Word Senses.

Я понимаю, что, вероятно, нет большого корпуса с этой информацией, поскольку корпус должен быть создан вручную, но должно быть от чего отказаться.

Кроме того, если существует корпус, существует ли, по крайней мере, смысл, аннотированная база данных NGRAM (с каким процентом того времени, как слово является каждому из его определений, или числовое количество каждого определения Wordnet в зависимости от того, насколько распространено смысл слова является)?

Это было полезно?

Решение

Три выдающихся корпуса аннотированы для Wordnet:

Другие советы

Некоторые из Senseval (в настоящее время Семваль) Данные аннотируются Wordnet.

Вы можете использовать Senseval2, для Java есть формат Semcor и (JSEMCOR API), а также SenseVal3. Эти два корпуса используются для неоднозначности слова.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top