Domanda

Ciao gente:Sto utilizzando il software Stanford CoreNLP per elaborare centinaia di lettere di persone diverse (ciascuna di circa 10 KB).Dopo aver ottenuto l'output, devo elaborarlo ulteriormente e aggiungere informazioni a livello di token, frasi e lettere.Sono abbastanza nuovo nella PNL e mi chiedevo quale sarebbe il modo tipico o migliore per produrre i risultati della pipeline da Stanford CoreNLP per consentire un'ulteriore elaborazione?

Immagino che l'approccio tipico sarebbe l'output in XML.Se lo faccio, stimo che ci vorrà circa un GB di spazio su disco e mi chiedo, quindi, quanto sarebbe facile e veloce caricare tutta quella quantità di XML in Java per un'ulteriore elaborazione e aggiunta di informazioni?

Un'alternativa potrebbe essere quella di fare in modo che CoreNLP serializzi gli oggetti di annotazione che produce e li carichi nuovamente per l'elaborazione.Un vantaggio:non dover capire come convertire una stringa di analisi di una frase in un albero per un'ulteriore elaborazione.Uno svantaggio:gli oggetti di annotazione contengono molti tipi diversi di oggetti che sono ancora piuttosto difficile da manipolare e la documentazione su questi in Stanford CoreNLP mi sembra scarsa.

È stato utile?

Soluzione

Dipende davvero da cosa vuoi fare dopo.Eseguire la serializzazione è probabilmente l'approccio più semplice e veloce, lo svantaggio è che è necessario comprendere la struttura dei dati CoreNLP.

E se volessi leggerlo in un'altra lingua o leggere nella tua struttura dati, salvarla come XML.

Io andrei per la prima strada.

Autorizzato sotto: CC-BY-SA insieme a attribuzione
Non affiliato a StackOverflow
scroll top