Domanda

Ho uno strano problema.

Ho un elenco di frasi (circa 0,1 milioni) che è necessario taggare utilizzando il tagging del riconoscimento del riconoscimento dell'entità Stanford Named. Stavo taggando usando la seguente riga di codice fornita dal sito Web Stanford Ner Demo (codice Demo Java).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}
.

Ho pensato che tutto vada bene fino a quando non ho controllato manualmente alcune delle frasi che non sono state taggate affatto che dovrebbero essere taggate. Ma quando queste frasi che non sono taggate vengono raccolte a mano in qualche elenco di campioni e testato con il codice sopra che vengono etichettati quindi. Quindi sono confuso da dove sto sbagliando. Le frasi che non sono taggate correttamente sono come nell'intervallo di 1000 - 1500 frasi. Quindi, quando ho eseguito queste frasi contrassegnate in modo errato in un elenco separato, vengono taggati. È la dimensione del set di dati (0,1 milioni) che ha alcun impatto sul classificatore?

Ad esempio: Considera la seguente frase - "IBM Corporation Introduzione" Le frasi come sopra sono presenti in un numero considerevole nel mio set di dati da 0,1 milioni. Quindi, quando faccio il tagging utilizzando il codice sopra riportato sul set di dati di 0,1 milioni, molte frasi come queste non hanno alcun tagging. Ma quando ho scelto quelli e metti in una lista e poi faccio il tagging, allora vengono taggati.

Ho provato tutti gli approcci e io finisco con lo stesso risultato di nessun tagging per le frasi come sopra quando si tagga sull'intero set di dati.

Ho provato i seguenti 3 modi diversi 1. classificatore.classifytostring (inputstring, "slashtags", falso) 2. Classificatore.classify (Inputstring) 3. Classificatore.classifyFaracracteroffsets (inputstring)

Qualche idea o suggerimento in cui sto andando male?

Grazie

È stato utile?

Soluzione

Penso che tu abbia ricevuto risposta dal link sottostante:

https://mailman.stanford.edu/Pipermail / Java-NLP-User / 2014-LUGLIO / 006045.html

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top