Question

Y at-il une meilleure pratique, algorithme ou logiciel (open source avec une licence permissive requise ...) qui peuvent trouver des informations de corps de texte? Je fais référence à:

  • trouver toutes les adresses e-mail dans un texte
  • trouver toutes les mentions des villes
  • trouver toutes les mentions des états
  • trouver toutes les urls
  • trouver toutes les mentions des numéros de téléphone
  • trouver toutes les mentions de codes postaux ... avec la possibilité d'ajouter plus ...

J'ai entendu RapidMiner devrait être en mesure de le faire comme l'extraction de texte, mais AGPL n'est pas une licence acceptable pour mon but.

Y at-il « standard » pour faire ce genre d'analyse?

Était-ce utile?

La solution

Lire sur le reconnaissance d'entités nommées . Vous pouvez Apache OpenNLP ou Apache UIMA , qui ont tous deux le bien, la licence Apache.

Autres conseils

Pour ces entités de type, vous pouvez utiliser l'outil de NER basé sur des règles comme Gexp .

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top