Question

Salut les amis:J'utilise le logiciel CoreNLP de Stanford pour traiter des centaines de lettres de personnes différentes (chacune d'environ 10 Ko).Une fois que j'ai obtenu la sortie, je dois la traiter davantage et ajouter des informations au niveau des jetons, des phrases et des lettres.Je suis assez nouveau en PNL et je me demandais quel serait le moyen typique ou le meilleur de sortir les résultats du pipeline de Stanford CoreNLP pour permettre un traitement ultérieur?

Je suppose que l'approche typique serait de sortir en XML.Si je le fais, j'estime que cela prendra environ un Go d'espace disque, et je me demande alors à quel point il serait rapide et facile de charger autant de XML dans Java pour un traitement ultérieur et l'ajout d'informations?

Une alternative pourrait être de demander à CoreNLP de sérialiser les objets d'annotation qu'il produit et de les charger à nouveau pour le traitement.Un avantage:ne pas avoir à comprendre comment reconvertir une chaîne d'analyse de phrase en arbre pour un traitement ultérieur.Un inconvénient:les objets d'annotation contiennent de nombreux types d'objets différents que je suis encore assez difficile à manipuler et la documentation sur ceux-ci dans Stanford CoreNLP me semble mince.

Était-ce utile?

La solution

C'est vraiment une question de ce que vous voulez faire après.La sérialisation est probablement l'approche la plus simple et la plus rapide, l'inconvénient est que vous devez comprendre la structure de données CoreNLP.

Et si vous souhaitez le lire dans une autre langue ou le lire dans votre propre structure de données, enregistrez-le au format XML.

J'irais par le premier chemin.

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top