Stanford nomeou Entity Tagger - Inconsistência?
-
21-12-2019 - |
Pergunta
Eu tenho um problema estranho.
Eu tenho uma lista de frases (cerca de 0,1 milhão) que desejo marcar usando a marcação de reconhecimento de entidade (ner) nomeada de Stanford.Eu estava marcando usando a seguinte linha de código fornecida no site de demonstração de Stanford ner (Código de demonstração Java).
for (String str : List<sentences>) {
System.out.print(classifier.classifyToString(str, "slashTags", false));
}
Achei que tudo estava indo bem até verificar manualmente algumas das frases que não estavam marcadas e que deveriam estar marcadas.Mas quando essas frases que não estão marcadas são escolhidas a dedo em alguma lista de exemplos e testadas com o código acima, elas são marcadas.Então estou confuso onde estou errando.As frases que não são marcadas corretamente estão na faixa de 1.000 a 1.500 frases.então, quando executei essas frases marcadas incorretamente em uma lista separada, elas foram marcadas.O tamanho do conjunto de dados (0,1 milhão) está tendo algum impacto no classificador?
Por exemplo:Considere a seguinte frase - frases "IBM Corporation Introdução", como acima, estão presentes em um número considerável no meu conjunto de dados de 0,1 milhão.Portanto, quando faço a marcação usando o código acima no conjunto de dados de 0,1 milhão, muitas frases como essas não têm nenhuma marcação.Mas quando eu os escolho a dedo e coloco em uma lista e depois faço a marcação, eles estão sendo marcados.
Eu tentei todas as abordagens e acabei com o mesmo resultado de nenhuma marcação para as frases como acima, ao marcar todo o conjunto de dados.
Eu tentei as seguintes três maneiras diferentes 1.Classifier.ClassifyToString (InputString, "Slashtags", False) 2.classificador.classify (InputString) 3.classifier.classifyToCharacterOffsets(inputString)
Alguma idéia ou sugestão onde estou errando?
Obrigado
Solução
Acho que você obteve a resposta no link abaixo:
https://mailman.stanford.edu/pipermail/java-nlp-user/2014-July/006045.html