Filtrado de información de grandes cuerpos de texto

https://stackoverflow.com/questions/6307450

26-10-2019
|

Pregunta

¿Existe una mejor práctica, algoritmo o software (código abierto con una licencia permisiva requerida ...) que puede encontrar información de cuerpos de texto? Me refiero a:

Encuentre todas las direcciones de correo electrónico en un texto
Encuentra todas las menciones de las ciudades
Encuentra todas las menciones de los estados
Encuentra todas las URL
Encuentre todas las menciones de los números de teléfono
Encuentre todas las menciones de los códigos postales ... con la capacidad de agregar más ...

Escuché que RapidMiner debería poder hacer minería de texto como esta, pero AGPL no es una licencia aceptable para mi propósito.

¿Hay algo 'estándar' para hacer este tipo de análisis?

Solución

Leer acerca de Reconocimiento de entidad nombrado. Puedes probar Apache opennlp o Apache uima, ambos tienen la licencia, bueno, apache.

Otros consejos

Para dicho tipo de entidades, puede usar la herramienta NER basada en reglas como GEXP.

Licenciado bajo: CC-BY-SA con atribución

No afiliado a StackOverflow