Frage

Ich bin auf der Suche nach einer einfachen, aber „gut genug“ Named Entity Recognition-Bibliothek (und Wörterbuch) für Java, ich suche E-Mails und Dokumente und extrahiert einige „grundlegende Informationen“ wie zu verarbeiten: Namen, Orte, Adressen und Termine

Ich habe mich um, und die meisten scheine auf der schweren Seite und voller NLP Art von Projekten zu sein.

Jede Empfehlungen?

War es hilfreich?

Lösung 2

BTW, ich lief vor kurzem über OpenCalais , die ich war auf der Suche nach der havethe Funktionalität scheint.

Andere Tipps

Sie können einen Blick auf eines der zu einem ähnlichen Problem.

Anders als das am meisten leichte NER Systeme hängen stark von der Domäne verwendet. Sie werden eine ganze Reihe von Werkzeugen und Papieren über biomedizinische NER Systeme, zum Beispiel finden. Zusätzlich zu meinem vorherigen Post (die bereits meine wichtigste Empfehlung enthält, wenn Sie tun NER wollen), sind hier einige weitere Werkzeuge, die Sie möchten vielleicht schauen:

  • Die Stanford CER-NER
  • Die Postech Biomedical NER-System , wenn Sie in diesem bestimmten Bereich interessiert ist,
  • OpenCalais scheint ein kommerzielles System zu sein. Es gibt UIMA Wrapper für OpenCalais aber sie scheinen datiert. Es gibt auch ein Wörterbuch basiert Context-Mapper Kommentator für UIMA, die Ihnen helfen können. Beachten Sie, dass UIMA erheblichen Aufwand in Lernkurve impliziert; -)
  • OpenNLP auch ein NER-Tool hat.
  • Balie tut NER auch unter anderem.
  • ABNER tut NER, aber wieder seine konzentrierte sich auf die biomedizinischen Bereich.
  • Die JULIE Lab Werkzeuge von der Universität Jena, Deutschland auch tun NER. Sie haben eigenständige Versionen und UIMA Analyse-Engines.

Eine weitere Bemerkung: Sie werden nicht weg ohne tokenization am Eingang. Tokenisierung der natürlichen Sprache ist etwas nicht-trivial, deshalb empfehle ich Ihnen eine Toolbox verwenden, die sowohl für Sie.

Lizenziert unter: CC-BY-SA mit Zuschreibung
Nicht verbunden mit StackOverflow
scroll top