Pergunta

Eu tenho uma lista de palavras e quero filtrá -lo para que eu tenha apenas os substantivos dessa lista de palavras (usando Java). Para fazer isso, estou procurando uma maneira fácil de consultar um banco de dados de palavras para o seu tipo.

Minha pergunta é: alguém sabe de uma API de pesquisa de palavra fácil e gratuita que me permitiria encontrar o classe de uma palavra, não necessariamente sua definição semântica.

Obrigado!

Ben.

Editar: Por classe da palavra, eu quis dizer 'parte de fala', obrigado por esclarecer isso

Foi útil?

Solução

Tipo de palavra? Como verbo, substantivo, adjetivo, etc? Nesse caso, você pode ter o problema de que algumas palavras podem ser usadas de mais de uma maneira. Por exemplo: "Você pode me trocar esse cartão?", "Isso foi um comércio ruim".

Ver este tópico Para algumas sugestões.

Dê uma olhada em isto Também parece que pode fazer exatamente o que você está procurando.

Outras dicas

Eu acho que o que você está procurando é a parte da fala (POS) de uma palavra. Em geral, isso não será possível determinar, exceto no contexto de uma frase. Existem muitas palavras que podem várias partes potenciais diferentes da fala (por exemplo, 'banco' pode ser usado como verbo ou substantivo).

Você pode usar um tagger de POS para obter as informações desejadas. No entanto, os seguintes taggers de parte de fala assumem que você está marcando palavras em uma frase em inglês bem estruturada ...

  • o Opennlp As bibliotecas Java são geralmente muito boas e lançadas sob o LGPL. Há um tagger de parte do fala para o inglês e alguns outros idiomas incluídos na distribuição. Basta ir à página do projeto para obter o frasco (e não se esqueça de baixar os modelos também).

  • Há também o Stanford Part-of-Speal Tagger, escrito em Java sob a GPL. Não tive nenhuma experiência direta com esta biblioteca, mas o Stanford NLP Lab é geralmente incrível.

A consulta de um banco de dados de palavras levará ao problema que Ben S. menciona, por exemplo, é o chumbo (v. Mostrar o caminho) ou o chumbo (n. Pb). Se você quiser passar algum tempo no problema, observe parte da marcação de fala. Há boas informações em outro thread.

Para o inglês, você pode usar o WordNet com um dos APIs Java disponíveis para encontrar o categoria lexical de uma palavra (que na PNL é mais comumente chamada de parte do discurso). Usando um dedicado Pos Tagger seria outra opção.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top