Лучший способ вывести результаты Стэнфордского НЛП [закрыто]
-
21-12-2019 - |
Вопрос
Привет народ:Я использую программное обеспечение Stanford CoreNLP для обработки сотен писем от разных людей (каждое около 10 КБ).После того, как я получу результат, мне нужно его дополнительно обработать и добавить информацию на уровне токенов, предложений и букв.Я новичок в НЛП, и мне интересно, каким типичным или лучшим способом будет вывод результатов конвейера из Stanford CoreNLP, чтобы разрешить дальнейшую обработку?
Я предполагаю, что типичным подходом будет вывод в XML.Если я это сделаю, то, по моим оценкам, это займет около ГБ дискового пространства, и тогда мне интересно, насколько быстро и легко будет загрузить такой объем XML обратно в Java для дальнейшей обработки и добавления информации?
Альтернативой может быть то, чтобы CoreNLP сериализовал создаваемые им объекты аннотаций и загружал их обратно для обработки.Преимущество:не нужно разбираться, как преобразовать строку синтаксического анализа предложения обратно в дерево для дальнейшей обработки.Недостаток:Объекты аннотаций содержат множество различных типов объектов, с которыми я все еще довольно грубо манипулирую, и документация по ним в Stanford CoreNLP кажется мне скудной.
Решение
Это действительно вопрос того, что вы хотите сделать потом.Делая сериализация, вероятно, является наиболее простым и быстрым подходом, Con в том, что вам нужно понимать структуру данных CORENLP.
Что, если вы хотите прочитать его на другом языке или прочитать в свою собственную структуру данных, сохранить как XML.
Я бы пошел первым путем.