Pregunta

Estoy buscando un simple pero "suficientemente bueno" Nombrada biblioteca de reconocimiento de entidades (y diccionario) para Java, estoy buscando procesar correos electrónicos y documentos y extraer algo de "información básica". me gusta: Nombres, lugares, dirección y fechas

He estado buscando, y la mayoría parece estar en el lado pesado y en proyectos de PNL completos.

¿Alguna recomendación?

¿Fue útil?

Solución 2

Por cierto, recientemente me encontré con OpenCalais que parece tener la funcionalidad que estaba buscando.

Otros consejos

Es posible que desee ver una de mis respuestas anteriores a un problema similar.

Aparte de eso, la mayoría de los sistemas NER más ligeros dependen mucho del dominio utilizado. Encontrará muchas herramientas y documentos sobre sistemas biomédicos NER, por ejemplo. Además de mi publicación anterior (que ya contiene mi recomendación principal si desea hacer NER), aquí hay algunas herramientas más que puede considerar:

  • El Stanford CER-NER
  • El Postech Biomedical NER System si usted están interesados ??en este dominio en particular
  • OpenCalais parece ser un sistema comercial. Hay contenedores UIMA para OpenCalais pero parecen anticuados. También hay un anotador de Context-Mapper basado en diccionario para UIMA que puede ayudarlo. Tenga en cuenta que UIMA implica una sobrecarga significativa en la curva de aprendizaje ;-)
  • OpenNLP también tiene una herramienta NER.
  • Balie también hace NER, entre otras cosas.
  • ABNER hace NER, pero nuevamente se centra en el dominio biomédico.
  • El JULIE Lab Tools de la universidad de Jena, Alemania también hacer NER. Tienen versiones independientes y motores de análisis UIMA.

Un comentario adicional: no se escapará sin tokenización en la entrada. La tokenización del lenguaje natural no es algo trivial, por eso te sugiero que uses una caja de herramientas que haga las dos cosas por ti.

Es posible que desee probar Alchemy API también. Es similar a Open Calais.

Para la gramática de la PNL, puede consultar http://code.google.com/p/graph -expression / y http://gate.ac.uk/

Licenciado bajo: CC-BY-SA con atribución
No afiliado a StackOverflow
scroll top