Pergunta

Eu estou procurando um simples, mas "suficientemente bom" Nomeado biblioteca Entity Recognition (e dicionário) para java, eu estou olhando para e-mails e documentos do processo e extrair algumas "informações básicas", como: Nomes, lugares, endereço e datas

Eu estive olhando ao redor, ea maioria parece estar no lado pesado e tipo NLP cheio de projetos.

Quaisquer recomendações?

Foi útil?

Solução 2

BTW, eu recentemente correu OpenCalais que parece havethe funcionalidade que eu estava procurando depois.

Outras dicas

Você pode querer dar uma olhada em um dos minhas respostas anteriores para um problema semelhante.

Além disso, a maioria dos sistemas NER mais leves depender muito o domínio usado. Você vai encontrar um monte de ferramentas e documentos sobre sistemas NER biomédicas, por exemplo. Além do meu post anterior (que já contém minha principal recomendação se você quer fazer NER), aqui estão mais algumas ferramentas que você pode querer olhar em:

  • Stanford CER-NER
  • Postech Biomedical NER Sistema se está interessado neste domínio particular
  • OpenCalais parece ser um sistema comercial. Há UIMA wrappers para OpenCalais mas eles parecem datados. Há também um anotador Contexto-Mapper base dicionário para UIMA que podem ajudá-lo. Esteja ciente de que UIMA implica uma sobrecarga significativa na curva de aprendizagem; -)
  • OpenNLP também têm uma ferramenta NER.
  • Balie faz NER, também, entre outras coisas.
  • ABNER faz NER, mas novamente sua focada na área biomédica.
  • JULIE Lab da Universidade de Jena, Alemanha também fazer NER. Eles têm versões independentes e mecanismos de análise UIMA.

Uma observação adicional: você não vai fugir sem tokenization na entrada. Tokenization da linguagem natural é um pouco não-trivial, é por isso que eu sugiro que você use uma caixa de ferramentas que faz as duas coisas para você.

Você pode querer tentar Alchemy API também. Sua semelhante ao Abrir Calais.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top