Pergunta

Eu tenho um problema estranho.

Eu tenho uma lista de frases (cerca de 0,1 milhão) que desejo marcar usando a marcação de reconhecimento de entidade (ner) nomeada de Stanford.Eu estava marcando usando a seguinte linha de código fornecida no site de demonstração de Stanford ner (Código de demonstração Java).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

Achei que tudo estava indo bem até verificar manualmente algumas das frases que não estavam marcadas e que deveriam estar marcadas.Mas quando essas frases que não estão marcadas são escolhidas a dedo em alguma lista de exemplos e testadas com o código acima, elas são marcadas.Então estou confuso onde estou errando.As frases que não são marcadas corretamente estão na faixa de 1.000 a 1.500 frases.então, quando executei essas frases marcadas incorretamente em uma lista separada, elas foram marcadas.O tamanho do conjunto de dados (0,1 milhão) está tendo algum impacto no classificador?

Por exemplo:Considere a seguinte frase - frases "IBM Corporation Introdução", como acima, estão presentes em um número considerável no meu conjunto de dados de 0,1 milhão.Portanto, quando faço a marcação usando o código acima no conjunto de dados de 0,1 milhão, muitas frases como essas não têm nenhuma marcação.Mas quando eu os escolho a dedo e coloco em uma lista e depois faço a marcação, eles estão sendo marcados.

Eu tentei todas as abordagens e acabei com o mesmo resultado de nenhuma marcação para as frases como acima, ao marcar todo o conjunto de dados.

Eu tentei as seguintes três maneiras diferentes 1.Classifier.ClassifyToString (InputString, "Slashtags", False) 2.classificador.classify (InputString) 3.classifier.classifyToCharacterOffsets(inputString)

Alguma idéia ou sugestão onde estou errando?

Obrigado

Foi útil?

Solução

Acho que você obteve a resposta no link abaixo:

https://mailman.stanford.edu/pipermail/java-nlp-user/2014-July/006045.html

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top