Filtrado de información de grandes cuerpos de texto
-
26-10-2019 - |
Pregunta
¿Existe una mejor práctica, algoritmo o software (código abierto con una licencia permisiva requerida ...) que puede encontrar información de cuerpos de texto? Me refiero a:
- Encuentre todas las direcciones de correo electrónico en un texto
- Encuentra todas las menciones de las ciudades
- Encuentra todas las menciones de los estados
- Encuentra todas las URL
- Encuentre todas las menciones de los números de teléfono
- Encuentre todas las menciones de los códigos postales ... con la capacidad de agregar más ...
Escuché que RapidMiner debería poder hacer minería de texto como esta, pero AGPL no es una licencia aceptable para mi propósito.
¿Hay algo 'estándar' para hacer este tipo de análisis?
Solución
Leer acerca de Reconocimiento de entidad nombrado. Puedes probar Apache opennlp o Apache uima, ambos tienen la licencia, bueno, apache.
Otros consejos
Para dicho tipo de entidades, puede usar la herramienta NER basada en reglas como GEXP.
Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow