Pregunta

¿Existe una mejor práctica, algoritmo o software (código abierto con una licencia permisiva requerida ...) que puede encontrar información de cuerpos de texto? Me refiero a:

  • Encuentre todas las direcciones de correo electrónico en un texto
  • Encuentra todas las menciones de las ciudades
  • Encuentra todas las menciones de los estados
  • Encuentra todas las URL
  • Encuentre todas las menciones de los números de teléfono
  • Encuentre todas las menciones de los códigos postales ... con la capacidad de agregar más ...

Escuché que RapidMiner debería poder hacer minería de texto como esta, pero AGPL no es una licencia aceptable para mi propósito.

¿Hay algo 'estándar' para hacer este tipo de análisis?

¿Fue útil?

Solución

Leer acerca de Reconocimiento de entidad nombrado. Puedes probar Apache opennlp o Apache uima, ambos tienen la licencia, bueno, apache.

Otros consejos

Para dicho tipo de entidades, puede usar la herramienta NER basada en reglas como GEXP.

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top