Стэнфорд по имени сущность Tagger - несоответствие?
-
21-12-2019 - |
Вопрос
У меня странная проблема.
У меня есть список предложений (около 0,1 млн.), который хочет тег с помощью метки STANFORD именованного распознавания объекта (NER). Я помечал использовать следующую строку кода, который предоставляется на веб-сайте STANFORD NER DEMO (Java Demo Code).
for (String str : List<sentences>) {
System.out.print(classifier.classifyToString(str, "slashTags", false));
}
.
Я думал, что все идет прямо, пока я не проверю некоторые предложения, которые не были помечены вообще, которые должны быть помечены. Но когда эти предложения, которые не отмечены, рука выбираются в некоторое образец и тестируются с указанным вышеупомянутым кодом, они получают метку. Поэтому я запутался там, где я пойду не так. Предложения, которые не помечены правильно, подобятся в диапазоне 1000 - 1500 предложений. Поэтому, когда я бежал эти неправильно помеченные предложения в отдельном списке, то они получают метку. Размер набора данных (0,1 млн.), Имеющий любое влияние на классификатор?
Например: Рассмотрим следующее предложение - «IBM Corporation Введение» Подобные предложения присутствуют в значительном количестве в моих 0,1 миллионах набора данных. Таким образом, когда я делаю тегирование, используя вышеуказанный код на наборе данных 0,1 миллиона, многие предложения, подобные этим, не имели мечь вообще. Но когда я хочу выбрать те и вставлять в список, а затем делать метки, то они получают метку.
Я пробовал все подходы, и я в конечном итоге в том же результате никакой метки для предложений, таких как выше, когда помечает на весь набор данных.
Я попробовал следующие 3 разных способа 1. Классификатор .ClassifyToString (входной, «Slashtags», False) 2. Классификатор. Классификация (входная система) 3. Classifier.ClassifyToCharacter Offsets (вход настроек)
любые идеи или предложения, где я ошибаюсь?
Спасибо
Решение
Я думаю, что вы получили ответ по ссылке ниже:
https://mailman.stanford.edu/Pipermail / Java-NLP-User / 2014-июль / 006045.html