Melhor maneira de gerar resultados de PNL de Stanford [fechado]
-
21-12-2019 - |
Pergunta
Oi pessoal:Estou usando o software Stanford CoreNLP para processar centenas de cartas de pessoas diferentes (cada uma com cerca de 10 KB).Depois de obter a saída, preciso processá-la ainda mais e adicionar informações no nível de tokens, frases e letras.Sou muito novo na PNL e queria saber qual seria a maneira típica ou melhor de gerar os resultados do pipeline do Stanford CoreNLP para permitir processamento adicional.
Suponho que a abordagem típica seria a saída para XML.Se eu fizer isso, estimo que isso ocupará cerca de um GB de espaço em disco e me pergunto, então, quão rápido e fácil seria carregar tanto XML de volta em Java para processamento adicional e adição de informações?
Uma alternativa pode ser fazer com que o CoreNLP serialize os objetos de anotação que produz e os carregue de volta para processamento.Uma vantagem:não ter que descobrir como converter uma string de análise de frase de volta em uma árvore para processamento posterior.Uma desvantagem:objetos de anotação contêm muitos tipos diferentes de objetos que ainda sou bastante difícil de manipular e a documentação sobre eles no Stanford CoreNLP parece escassa para mim.
Solução
Isso realmente depende do que você deseja fazer depois.Fazer a serialização é provavelmente a abordagem mais direta e rápida, mas a desvantagem é que você precisa entender a estrutura de dados do CoreNLP.
E se você quiser lê-lo em outro idioma ou em sua própria estrutura de dados, salve como XML.
Eu iria pelo primeiro caminho.