Question

Je recherche une solution simple mais "assez bonne". Bibliothèque de reconnaissance d'entités nommées (et dictionnaire) pour Java, je souhaite traiter des courriels et des documents et extraire des "informations de base". comme: Noms, lieux, adresse et dates

J'ai regardé autour de moi, et la plupart semblent être du côté lourd et des projets du genre PNL.

Des recommandations?

Était-ce utile?

La solution 2

BTW, j'ai récemment rencontré OpenCalais qui semble avoir la fonctionnalité que je recherchais.

Autres conseils

Vous voudrez peut-être jeter un coup d’œil sur l’un des réponses précédentes à un problème similaire.

En dehors de cela, la plupart des systèmes NER plus légers dépendent beaucoup du domaine utilisé. Vous trouverez par exemple de nombreux outils et documents sur les systèmes NER biomédicaux. En plus de mon précédent article (qui contient déjà ma recommandation principale si vous voulez faire du TNS), voici quelques outils supplémentaires que vous voudrez peut-être examiner:

  • Le Stanford CER-NER
  • Le système NER de Biotechnical de Postech si vous sont intéressés par ce domaine particulier
  • OpenCalais semble être un système commercial. Il existe des enveloppeurs UIMA pour OpenCalais , mais ils semblent datés. Il existe également un annotateur Context-Mapper pour UIMA, basé sur un dictionnaire, qui peut vous aider. Sachez que UIMA implique des frais généraux importants dans la courbe d’apprentissage; -)
  • OpenNLP dispose également d'un outil NER.
  • Balie effectue également des NER, entre autres.
  • ABNER fait du NER, mais là encore, il se concentre sur le domaine biomédical.
  • Les JULIE Lab Tools de l'université de Jena, en Allemagne, également faire NER. Ils ont des versions autonomes et des moteurs d’analyse UIMA.

Une remarque supplémentaire: vous ne vous échapperez pas sans la tokénisation de l'entrée. La tokenisation du langage naturel est légèrement non triviale, c'est pourquoi je vous suggère d'utiliser une boîte à outils qui fait les deux pour vous.

Vous pouvez également essayer de API Alchemy . Son semblable à Open Calais.

Pour la grammaire PNL, vous pouvez vérifier http://code.google.com/p/graph -expression / et http://gate.ac.uk/

Licencié sous: CC-BY-SA avec attribution
Non affilié à StackOverflow
scroll top