Pergunta

Oi pessoal:Estou usando o software Stanford CoreNLP para processar centenas de cartas de pessoas diferentes (cada uma com cerca de 10 KB).Depois de obter a saída, preciso processá-la ainda mais e adicionar informações no nível de tokens, frases e letras.Sou muito novo na PNL e queria saber qual seria a maneira típica ou melhor de gerar os resultados do pipeline do Stanford CoreNLP para permitir processamento adicional.

Suponho que a abordagem típica seria a saída para XML.Se eu fizer isso, estimo que isso ocupará cerca de um GB de espaço em disco e me pergunto, então, quão rápido e fácil seria carregar tanto XML de volta em Java para processamento adicional e adição de informações?

Uma alternativa pode ser fazer com que o CoreNLP serialize os objetos de anotação que produz e os carregue de volta para processamento.Uma vantagem:não ter que descobrir como converter uma string de análise de frase de volta em uma árvore para processamento posterior.Uma desvantagem:objetos de anotação contêm muitos tipos diferentes de objetos que ainda sou bastante difícil de manipular e a documentação sobre eles no Stanford CoreNLP parece escassa para mim.

Foi útil?

Solução

Isso realmente depende do que você deseja fazer depois.Fazer a serialização é provavelmente a abordagem mais direta e rápida, mas a desvantagem é que você precisa entender a estrutura de dados do CoreNLP.

E se você quiser lê-lo em outro idioma ou em sua própria estrutura de dados, salve como XML.

Eu iria pelo primeiro caminho.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top