Pergunta

Existe alguma implementação de código aberto de Lsi em java? Eu quero usar essa biblioteca para o meu projeto. Eu vi JLSI, mas ele implementa algum outro modelo de LSI. Eu quero um modelo padrão.

Foi útil?

Solução

Você já considerou LDA (alocação latente de Dirichlet)? Eu também não, mas encontrei o mesmo problema com o LSI recentemente (patentes). Pelo que entendi, o LDA é uma técnica relacionada/mais poderosa. http://en.wikipedia.org/wiki/latent_dirichlet_allocation Aparentemente, possui alguns links para implementações de código aberto.

Outras dicas

Uma pesquisa no Google por Java LSI leva a uma pergunta semelhante Isso recomenda vetores semânticos. Um pacote construído sobre o Lucene que é "semelhante" ao LSI. Não sei se está mais próximo do que a implementação do JLSI.

Esse tópico também menciona que o LSI é patenteado e não há muitas implementações. Portanto, se você precisar de uma implementação padrão, talvez seja necessário usar um idioma que não seja Java.

o Pacote S-Space Possui uma versão de código aberto do LSA, com ligações para os vetores de documentos LSI. (Ambas as abordagens operam na mesma matriz de documentos de termo e são equivalentes, exceto na saída.) É uma abordagem bastante escalável que usa o SVD fino. Eu o usei para executar o LSI em toda a Wikipedia sem problemas (depois de remover os termos pouco frequentes com menos de 5 ocorrências).

Como Scott Ray mencionou, o pacote SemanticVectors também possui uma boa implementação de LSI que recentemente mudou para usar o mesmo svd fino (SVDLIBJ), para que você possa conferir isso como se não tivesse antes.

Uma pesquisa no Google por ferramentas de PNL fornece isso slides O que eu acho que ajuda ...

Acredito que a LSA/LSI foi patenteada em 1989, o que significa que a patente deveria ter expirado. Espero que veremos alguns bons aplicativos de código aberto em breve.

Você já experimentou o pacote de vetor semântico?

http://code.google.com/p/semanticvectors/

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top