Frage

Ich habe ein seltsames Problem.

Ich habe eine Liste von Sätzen (ca. 0,1 Mio.), die mit der Markierung von STANFORD mit dem Namen der Entity-Anerkennung (NER) -Kennzeichnung eintauchen möchten. Ich habe mit der folgenden Codezeile gekennzeichnet, die von der Stanford Ner Demo-Website (Java-Demo-Code) bereitgestellt wird.

generasacodicetagpre.

Ich dachte, alles geht nach rechts, bis ich manuell auf einige der Sätze überprüft habe, die nicht überhaupt markiert wurden, die markiert werden sollen. Wenn jedoch diese Sätze, die nicht markiert sind, werden von Hand in eine Sample-Liste handgegeben und mit dem obigen Code getestet, den sie dann markiert haben. Also bin ich verwirrt, wo ich schief gehe. Die nicht korrekt markierten Sätze sind wie im Bereich von 1000 - 1500 Sätzen. Wenn ich also diese fehlerhaft markierten Sätze in einer separaten Liste lief, werden sie markiert. Ist die Größe des Datensatzes (0,1 Mio.) mit Auswirkungen auf den Klassifizierer?

Beispiel: Betrachten Sie den folgenden Satz - "IBM Corporation Einführung" Sätze wie oben sind in erheblicher Anzahl in meinem 0,1-Millionen-Datensatz vorhanden. Wenn ich also den Tagging mit dem obigen Code auf dem 0,1-Millionen-Datensatz mache, haben viele Sätze wie diese überhaupt kein Tagging. Aber wenn ich diejenigen auswähle und in eine Liste einfügen und dann das Markieren mache, werden sie dann markiert.

Ich habe alle Ansätze ausprobiert und lande in demselben Ergebnis ohne Tagging für die Sätze wie oben, wenn sie auf dem gesamten Datensatz markiert werden.

Ich habe die folgenden 3 verschiedenen Wege ausprobiert 1. Klassifizierer.ClassififyTostring (Inputring, "Slashtags", FALSE) 2. Klassifizierer.Classifify (Inputtring) 3. Klassifizierer.ClassififytoCharacteroffsets (EingabString)

Irgendwelche Ideen oder Vorschläge, in denen ich schief gehe?

danke

War es hilfreich?

Lösung

Ich denke, Sie haben von dem untenstehenden Link Antwort:

https://mailman.stanford.edu/Pipermoil / Java-NLP-Benutzer / 2014-Juli / 006045.html

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top