Filtrage des informations des grands corps de texte

https://stackoverflow.com/questions/6307450

26-10-2019
|

Question

Y at-il une meilleure pratique, algorithme ou logiciel (open source avec une licence permissive requise ...) qui peuvent trouver des informations de corps de texte? Je fais référence à:

trouver toutes les adresses e-mail dans un texte
trouver toutes les mentions des villes
trouver toutes les mentions des états
trouver toutes les urls
trouver toutes les mentions des numéros de téléphone
trouver toutes les mentions de codes postaux ... avec la possibilité d'ajouter plus ...

J'ai entendu RapidMiner devrait être en mesure de le faire comme l'extraction de texte, mais AGPL n'est pas une licence acceptable pour mon but.

Y at-il « standard » pour faire ce genre d'analyse?

La solution

Lire sur le reconnaissance d'entités nommées . Vous pouvez Apache OpenNLP ou Apache UIMA , qui ont tous deux le bien, la licence Apache.

Autres conseils

Pour ces entités de type, vous pouvez utiliser l'outil de NER basé sur des règles comme Gexp .

Licencié sous: CC-BY-SA avec attribution

Non affilié à StackOverflow