Фильтровать информацию из больших тел текста

StackOverflow https://stackoverflow.com/questions/6307450

  •  26-10-2019
  •  | 
  •  

Вопрос

Существует ли наилучшая практика, алгоритм или программное обеспечение (с открытым исходным кодом с разрешающей лицензией ...), которая может найти информацию из тел текста? Я имею в виду:

  • Найти все адреса электронной почты в тексте
  • Найдите все упоминания городов
  • Найдите все упоминания государств
  • Найдите все URL
  • Найдите все упоминания по телефону
  • Найдите все упоминания о Zipcodes ... с возможностью добавлять больше ...

Я слышал, что Rapidminer должен быть в состоянии выполнять такие текстовые виды текста, как этот, но AGPL не является приемлемой лицензией для моей цели.

Есть ли что -нибудь «стандартное», чтобы сделать такой анализ?

Это было полезно?

Решение

Прочитать о Названное признание сущности. Анкет Можешь попробовать Apache opennlp или же Apache Uima, оба из которых имеют лицензию Apache.

Другие советы

Для такого типа сущностей вы можете использовать на основе правил NER инструмент, например gexp.

Лицензировано под: CC-BY-SA с атрибуция
Не связан с StackOverflow
scroll top