Pregunta

Hola amigos:Estoy usando el software Stanford CoreNLP para procesar cientos de cartas de diferentes personas (cada una de aproximadamente 10 KB).Después de obtener el resultado, necesito procesarlo más y agregar información a nivel de tokens, oraciones y letras.Soy bastante nuevo en PNL y me preguntaba cuál sería la forma típica o mejor de generar los resultados de la canalización desde Stanford CoreNLP para permitir un procesamiento posterior.

Supongo que el enfoque típico sería generar resultados en XML.Si lo hago, calculo que tomará alrededor de un GB de espacio en disco y me pregunto, entonces, ¿qué tan rápido y fácil sería cargar esa cantidad de XML nuevamente en Java para su posterior procesamiento y adición de información?

Una alternativa podría ser hacer que CoreNLP serialice los objetos de anotación que produce y los vuelva a cargar para procesarlos.Una ventaja:sin tener que descubrir cómo convertir una cadena de análisis de oraciones nuevamente en un árbol para su posterior procesamiento.Una desventaja:Los objetos de anotación contienen muchos tipos diferentes de objetos que todavía soy bastante difícil de manipular y la documentación sobre estos en Stanford CoreNLP me parece escasa.

¿Fue útil?

Solución

Realmente es una cuestión de lo que quieres hacer después.Realizar la serialización es probablemente el enfoque más sencillo y rápido; la desventaja es que es necesario comprender la estructura de datos de CoreNLP.

¿Qué sucede si desea leerlo en otro idioma o leerlo en su propia estructura de datos? Guárdelo como XML.

Yo iría por el primer camino.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top