Pergunta

Eu estou olhando para nomes extrair e lugares de rajadas muito curtas de texto exemplo

 "cardinals vs jays in toronto"
 " Daniel Nestor and Nenad Zimonjic play Jonas Bjorkman w/ Kevin Ullyett, paris time to be announced"
"jenson button - pole position, brawn-mercedes - monaco".

Esta informação está atualmente em um banco de dados MySQL, e eu (praticamente) tem um registro separado para cada atleta, embora os nomes são às vezes soletrado errado, etc.

Gostaria de extrair os atletas e locais. Eu costumo trabalhar em PHP, mas não foram capazes de encontrar uma biblioteca para extração de entidade (e eu pode querer se aprofundar em alguns PNL e ML no futuro).

Pelo que tenho encontrado, LingPipe e NLTK parece ser o mais recomendado, mas eu não consigo descobrir se qualquer um vai realmente servir ao meu propósito, ou se outra coisa seria Melhor.

Eu não tenho programado em Java ou Python, por isso antes de eu começar a aprender novas línguas, estou esperando para obter alguns conselhos sobre o caminho que deve seguir, ou outras recomendações.

Foi útil?

Solução

O que você está descrevendo é entidade nomeada reconhecimento . Então, eu recomendo verificar o outro em relação a este tema, se você ainda não tenha visto. Este parece que a resposta mais útil para mim.

Eu não posso realmente comentário sobre se NLTK ou LingPipe é mais adequado para esta tarefa, embora de olhar para as respostas que parece que há muito poucos outros recursos escritos em Java.

Uma das vantagens de ir com NLTK é que Python é muito acessível como uma linguagem. A outra vantagem é que o NLTK livro (que está disponível para livre) oferece uma introdução a ambos Python e NLTK, ao mesmo tempo, o que seria útil para você.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top