Frage

Hallo Leute:Ich verwende die Stanford CoreNLP-Software, um Hunderte von Briefen verschiedener Personen zu verarbeiten (jeweils etwa 10 KB).Nachdem ich die Ausgabe erhalten habe, muss ich sie weiter verarbeiten und Informationen auf der Ebene von Token, Sätzen und Buchstaben hinzufügen.Ich bin ziemlich neu im Bereich NLP und habe mich gefragt, wie man die Pipeline-Ergebnisse von Stanford CoreNLP normalerweise oder am besten ausgeben kann, um eine weitere Verarbeitung zu ermöglichen.

Ich vermute, der typische Ansatz wäre die Ausgabe in XML.Wenn ich das tue, schätze ich, dass das etwa ein GB Speicherplatz beanspruchen wird, und ich frage mich, wie schnell und einfach es wäre, so viel XML zur weiteren Verarbeitung und zum Hinzufügen von Informationen zurück in Java zu laden?

Eine Alternative könnte darin bestehen, dass CoreNLP die von ihm erzeugten Annotationsobjekte serialisiert und diese zur Verarbeitung zurücklädt.Ein Vorteil:Sie müssen nicht herausfinden, wie Sie eine Satzanalysezeichenfolge zur weiteren Verarbeitung wieder in einen Baum umwandeln.Ein Nachteil:Annotationsobjekte enthalten viele verschiedene Arten von Objekten, mit deren Manipulation ich immer noch ziemlich grob bin, und die Dokumentation dazu in Stanford CoreNLP scheint mir dürftig zu sein.

War es hilfreich?

Lösung

Es kommt wirklich darauf an, was Sie danach tun möchten.Die Serialisierung ist wahrscheinlich der einfachste und schnellste Ansatz. Der Nachteil besteht darin, dass Sie die CoreNLP-Datenstruktur verstehen müssen.

Was ist, wenn Sie es in einer anderen Sprache lesen oder in Ihre eigene Datenstruktur einlesen möchten, speichern Sie es als XML.

Ich würde den ersten Weg gehen.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top