Pergunta

Quais são alguns bons algoritmos para rotular automaticamente o texto com a cidade / região ou origem? Ou seja, se um blog é sobre Nova York, como posso dizer programaticamente. Existem pacotes / papéis que pretendem fazer isso com qualquer grau de certeza?

Eu olhei algumas abordagens tfidf base, cruzamentos nome próprio, mas, até agora, os sucessos não espetaculares, e eu apreciaria ideias!

A questão mais geral é sobre a atribuição de textos para tópicos, dado alguma lista de tópicos.

Simples / abordagens ingênuas preferiram completo sobre Bayesian aproxima, mas estou aberto.

Foi útil?

Solução

Você está procurando um href="https://secure.wikimedia.org/wikipedia/en/wiki/Named_entity_recognition" rel="noreferrer"> entidade nomeada sistema de reconhecimento vários boa toolkits disponível para ajudá-lo. LingPipe em particular, tem um muito decente tutorial . CAGEclass parece ser orientada em torno NER em nomes de lugares geográficos, mas eu não usei ainda.

Aqui está uma boa entrada de blog sobre as dificuldades de NER com nomes lugares geográficos.

Se você está indo com Java, eu recomendo usar as classes LingPipe NER. OpenNLP também tem alguns, mas o primeiro tem uma documentação melhor.

Se você está procurando algum fundo teórico, Chávez et al. (2005) ter construído uma syntem interessante e documentado-lo.

Outras dicas

semântica latente Mapeamento parece ser potencialmente um bom ajuste. Isso é quase tão ingênuo de um algoritmo como você é provável encontrar.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top