Лучший способ вывести результаты Стэнфордского НЛП [закрыто]

StackOverflow https://stackoverflow.com//questions/24028492

Вопрос

Привет народ:Я использую программное обеспечение Stanford CoreNLP для обработки сотен писем от разных людей (каждое около 10 КБ).После того, как я получу результат, мне нужно его дополнительно обработать и добавить информацию на уровне токенов, предложений и букв.Я новичок в НЛП, и мне интересно, каким типичным или лучшим способом будет вывод результатов конвейера из Stanford CoreNLP, чтобы разрешить дальнейшую обработку?

Я предполагаю, что типичным подходом будет вывод в XML.Если я это сделаю, то, по моим оценкам, это займет около ГБ дискового пространства, и тогда мне интересно, насколько быстро и легко будет загрузить такой объем XML обратно в Java для дальнейшей обработки и добавления информации?

Альтернативой может быть то, чтобы CoreNLP сериализовал создаваемые им объекты аннотаций и загружал их обратно для обработки.Преимущество:не нужно разбираться, как преобразовать строку синтаксического анализа предложения обратно в дерево для дальнейшей обработки.Недостаток:Объекты аннотаций содержат множество различных типов объектов, с которыми я все еще довольно грубо манипулирую, и документация по ним в Stanford CoreNLP кажется мне скудной.

Это было полезно?

Решение

Это действительно вопрос того, что вы хотите сделать потом.Делая сериализация, вероятно, является наиболее простым и быстрым подходом, Con в том, что вам нужно понимать структуру данных CORENLP.

Что, если вы хотите прочитать его на другом языке или прочитать в свою собственную структуру данных, сохранить как XML.

Я бы пошел первым путем.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top