Pregunta

Tengo un problema extraño.

Tengo una lista de oraciones (alrededor de 0,1 millones), que desea etiquetar usando el etiquetado de reconocimiento de entidades de Stanford con nombre (NER). Estaba etiquetando utilizando la siguiente línea de código que se proporciona desde el sitio web de Stanford Ner Demo (código de demostración de Java).

for (String str : List<sentences>) {
   System.out.print(classifier.classifyToString(str, "slashTags", false));
}

Pensé que todo va correcto hasta que revisé manualmente algunas de las oraciones que no estaban etiquetadas en absoluto, que se supone que deben ser etiquetadas. Pero cuando estas oraciones que no están etiquetadas están elegidas a mano en alguna lista de muestras y se prueban con el código anterior que se están etiquetando. Así que estoy confundido a donde me voy mal. Las oraciones que no están etiquetadas son como en el rango de 1000 a 1500 oraciones. Entonces, cuando corrí estas oraciones etiquetadas incorrectamente en una lista separada, entonces se están etiquetando. ¿Es el tamaño del conjunto de datos (0,1 millones) que tiene algún impacto en el clasificador?

Por ejemplo: Considere la siguiente oración - "IBM Corporation Introduction" Las oraciones como las anteriores están presentes en un número considerable en mi conjunto de datos de 0.1 millones. Entonces, cuando hago el etiquetado con el código anterior en el conjunto de datos de 0.1 millones, muchas oraciones como estas no tienen marcado en absoluto. Pero cuando los escoge a los que me escoge y pongo en una lista y luego haga el etiquetado, entonces se están etiquetando.

He intentado todos los enfoques y termino en el mismo resultado de que no hay etiquetado para las oraciones como las anteriores al etiquetar en todo el conjunto de datos.

Probé las siguientes 3 maneras diferentes 1. Clasificador. ClasificaciónTosificación (entrada, "Slashtags", Falso) 2. Clasificador. Clasificación (entrada) 3. Clasificador. ClasificaciónParactericias (entrada)

¿Alguna idea o sugerencia en la que me voy mal?

gracias

¿Fue útil?

Solución

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top