Filtrage des informations des grands corps de texte
-
26-10-2019 - |
Question
Y at-il une meilleure pratique, algorithme ou logiciel (open source avec une licence permissive requise ...) qui peuvent trouver des informations de corps de texte? Je fais référence à:
- trouver toutes les adresses e-mail dans un texte
- trouver toutes les mentions des villes
- trouver toutes les mentions des états
- trouver toutes les urls
- trouver toutes les mentions des numéros de téléphone
- trouver toutes les mentions de codes postaux ... avec la possibilité d'ajouter plus ...
J'ai entendu RapidMiner devrait être en mesure de le faire comme l'extraction de texte, mais AGPL n'est pas une licence acceptable pour mon but.
Y at-il « standard » pour faire ce genre d'analyse?
La solution
Lire sur le reconnaissance d'entités nommées . Vous pouvez Apache OpenNLP ou Apache UIMA , qui ont tous deux le bien, la licence Apache.
Autres conseils
Pour ces entités de type, vous pouvez utiliser l'outil de NER basé sur des règles comme Gexp .
Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow