Библиотеки распознавания именованных объектов для Java [закрыты]
-
06-07-2019 - |
Вопрос
Я ищу простую, но "достаточно хорошую" библиотеку распознавания именованных объектов (и словарь) для Java, я хочу обрабатывать электронные письма и документы и извлекать некоторую "базовую информацию", например:Имена, места, адреса и даты
Я осмотрелся по сторонам, и большинство из них, похоже, посвящены тяжелой работе и полностью НЛП-проектам.
Есть какие - нибудь рекомендации ?
Решение 2
Кстати, я недавно натолкнулся на OpenCalais , который, похоже, обладает той функциональностью, о которой я заботился.
Другие советы
Возможно, вы захотите взглянуть на один из мои предыдущие ответы к аналогичной проблеме.
Кроме этого, большинство более легких систем NER во многом зависят от используемого домена.Например, вы найдете множество инструментов и статей о биомедицинских системах NER.В дополнение к моему предыдущему сообщению (в котором уже содержится моя основная рекомендация, если вы хотите сделать NER), вот еще несколько инструментов, с которыми вы, возможно, захотите ознакомиться:
- Тот Самый Стэнфордский УНИВЕРСИТЕТ
- Тот Самый Биомедицинская Усовершенствованная система Postech если вас интересует именно этот домен
- Открытый доступ похоже, это коммерческая система.Есть такие Обертки UIMA для OpenCalais но они кажутся устаревшими.Существует также аннотатор контекстного отображения на основе словаря для UIMA, который может вам помочь.Имейте в виду, что UIMA влечет за собой значительные накладные расходы на обучение ;-)
- OpenNLP также есть более ТОЧНЫЙ инструмент.
- Бейли делает это тоже, помимо всего прочего.
- АБНЕР делает МЕНЬШЕ, но опять же сосредоточен на биомедицинской области.
- Тот Самый Лабораторные Инструменты ДЖУЛИ из университета Йены, Германия, также делают NER.У них есть автономные версии и механизмы анализа UIMA.
Еще одно замечание:вам не обойтись без токенизации входных данных.Токенизация естественного языка немного нетривиальна, вот почему я предлагаю вам использовать инструментарий, который делает и то, и другое за вас.
Возможно, вы захотите попробовать Alchemy API . Это похоже на Open Calais.
Для грамматики НЛП вы можете проверить http://code.google.com/p/graph -expression / и http://gate.ac.uk/