Стэнфорд по имени сущность Tagger - несоответствие?

https://stackoverflow.com//questions/25050041

21-12-2019
|

Вопрос

У меня странная проблема.

У меня есть список предложений (около 0,1 млн.), который хочет тег с помощью метки STANFORD именованного распознавания объекта (NER). Я помечал использовать следующую строку кода, который предоставляется на веб-сайте STANFORD NER DEMO (Java Demo Code).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

Я думал, что все идет прямо, пока я не проверю некоторые предложения, которые не были помечены вообще, которые должны быть помечены. Но когда эти предложения, которые не отмечены, рука выбираются в некоторое образец и тестируются с указанным вышеупомянутым кодом, они получают метку. Поэтому я запутался там, где я пойду не так. Предложения, которые не помечены правильно, подобятся в диапазоне 1000 - 1500 предложений. Поэтому, когда я бежал эти неправильно помеченные предложения в отдельном списке, то они получают метку. Размер набора данных (0,1 млн.), Имеющий любое влияние на классификатор?

Например: Рассмотрим следующее предложение - «IBM Corporation Введение» Подобные предложения присутствуют в значительном количестве в моих 0,1 миллионах набора данных. Таким образом, когда я делаю тегирование, используя вышеуказанный код на наборе данных 0,1 миллиона, многие предложения, подобные этим, не имели мечь вообще. Но когда я хочу выбрать те и вставлять в список, а затем делать метки, то они получают метку.

Я пробовал все подходы, и я в конечном итоге в том же результате никакой метки для предложений, таких как выше, когда помечает на весь набор данных.

Я попробовал следующие 3 разных способа 1. Классификатор .ClassifyToString (входной, «Slashtags», False) 2. Классификатор. Классификация (входная система) 3. Classifier.ClassifyToCharacter Offsets (вход настроек)

любые идеи или предложения, где я ошибаюсь?

Спасибо

Решение

Я думаю, что вы получили ответ по ссылке ниже:

https://mailman.stanford.edu/Pipermail / Java-NLP-User / 2014-июль / 006045.html

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow