Question

J'ai un problème étrange.

J'ai une liste de phrases (environ 0,1 million) qui souhaite étiqueter le marquage de la reconnaissance de l'entité Named (NER) de Stanford. Je marchais à l'aide de la ligne de code suivante fournie à partir du site Web de Demo Stanford NER (code de démonstration de Java).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

Je pensais que tout se passe bien jusqu'à ce que je vérifiais manuellement certaines des phrases qui n'ont pas été marquées du tout, censées être étiquetées. Mais lorsque ces phrases qui ne sont pas marquées sont cueillies à la main dans une liste d'échantillons et testées avec le code ci-dessus, ils sont étiquetés, alors. Je suis donc confus où je vais mal. Les phrases qui ne sont pas étiquetées correctement sont comme dans la gamme de 1000 - 1500 phrases. Ainsi, lorsque j'ai exécuté ces phrases mal marquées de manière incorrecte dans une liste séparée, elles sont marquées. Est la taille de l'ensemble de données (0,1 million) ayant un impact sur le classificateur?

Par exemple: Considérez la phrase suivante - «Introduction IBM Corporation» Les phrases comme ci-dessus sont présentes dans un nombre considérable dans mon 0,1 million de données. Ainsi, lorsque je fais le marquage en utilisant le code ci-dessus sur 0,1 million de données, de nombreuses phrases comme celles-ci n'ont aucun marquage. Mais quand je suis à la main, choisissez ceux-ci et placez dans une liste, puis faites le tagging, puis ils sont marqués.

J'ai essayé toutes les approches et que je me retrouve dans le même résultat de la non-marquage pour les phrases telles que ci-dessus lors du marquage sur l'ensemble du jeu de données.

J'ai essayé les 3 suivantes différentes manières 1. Classificateur.ClassifyTostring (Entrée, "SLASHTAGS", FAUX) 2. classificateur.classifie (INTRISTRING) 3. classificateur.ClassifyToCharacteroffsets (INTRISTRING)

Des idées ou des suggestions où je vais mal?

merci

Était-ce utile?

La solution

Je pense que vous avez eu la réponse du lien ci-dessous:

https://mailman.stanford.edu/Pipermail / Java-NLP-User / 2014-juillet / 006045.html

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top