Фильтровать информацию из больших тел текста

https://stackoverflow.com/questions/6307450

26-10-2019
|

Вопрос

Существует ли наилучшая практика, алгоритм или программное обеспечение (с открытым исходным кодом с разрешающей лицензией ...), которая может найти информацию из тел текста? Я имею в виду:

Найти все адреса электронной почты в тексте
Найдите все упоминания городов
Найдите все упоминания государств
Найдите все URL
Найдите все упоминания по телефону
Найдите все упоминания о Zipcodes ... с возможностью добавлять больше ...

Я слышал, что Rapidminer должен быть в состоянии выполнять такие текстовые виды текста, как этот, но AGPL не является приемлемой лицензией для моей цели.

Есть ли что -нибудь «стандартное», чтобы сделать такой анализ?

Решение

Прочитать о Названное признание сущности. Анкет Можешь попробовать Apache opennlp или же Apache Uima, оба из которых имеют лицензию Apache.

Другие советы

Для такого типа сущностей вы можете использовать на основе правил NER инструмент, например gexp.

Лицензировано под: CC-BY-SA с атрибуция

Не связан с StackOverflow