É Indexação semântica latente (LSI) um algoritmo de Classificação Estatística?

https://stackoverflow.com/questions/1634073

06-07-2019
|

Pergunta

semântica latente está indexando (LSI) um algoritmo de Classificação Estatística? Por que ou por que não?

Basicamente, eu estou tentando descobrir por que a página da Wikipedia para Classificação Estatística faz não mencionar LSI. Eu estou apenas começando em essas coisas e eu estou tentando ver como todas as diferentes abordagens para classificar algo se relacionam entre si.

Solução

Não, eles não são exatamente o mesmo. classificação estatística tem a intenção de itens separados em categorias tão limpa quanto possível -. para tomar uma decisão sobre se limpo inciso X é mais parecido com os itens do grupo A ou grupo B, por exemplo

LSI tem a intenção de mostrar o grau em que os itens são semelhantes ou diferentes e, principalmente, encontrar itens que mostram um grau de semelhança a um item especificado. Enquanto isso é semelhante , não é exatamente o mesmo.

Outras dicas

LSI / LSA é, eventualmente, uma técnica para redução de dimensionalidade , e, geralmente, é acoplado com um algoritmo de vizinho mais próximo para torná-lo um em sistema de classificação. Por isso, em si, é só uma forma de "indexação" os dados na dimensão inferior utilizando SVD.

Você já leu sobre LSI na Wikipedia ? Ele diz que usa fatoração de matriz ( SVD ), que por sua vez é por vezes utilizado na classificação.

A distinção primária na aprendizagem de máquina é entre "supervisionado" e modelagem "sem supervisão".

Normalmente, as palavras "classificação estatística" referem-se aos modelos supervisionadas, mas nem sempre.

Com os métodos supervisionadas o conjunto de treinamento contém um rótulo de "rés-do-verdade" que você construir um modelo para prever. Quando você avaliar o modelo, o objetivo é prever o melhor palpite sobre (ou distribuição de probabilidade) a verdadeira etiqueta, que você não vai ter no momento da avaliação. Muitas vezes há uma métrica de desempenho e é bastante claro o que o direito vs resposta errada é.

métodos de classificação não-supervisionada tentar agrupar um grande número de pontos de dados que podem aparecer a variar de maneiras complexas em um número menor de categorias "semelhantes". Os dados em cada categoria deve ser semelhante em algum tipo de forma 'interessante' ou 'profunda'. Como não há "verdade terrestre" não se pode avaliar 'certo ou errado', mas 'mais' vs 'menos' interessante ou útil.

De forma semelhante tempo de avaliação você pode colocar novos exemplos para, potencialmente, um dos clusters (classificação batata frita) ou dar algum tipo de ponderação quantificar o aspecto semelhantes ou diferentes como o "arquétipo" do cluster.

Assim, em alguns aspectos, supervisionada e modelos sem supervisão pode produzir algo que é uma "previsão", previsão do rótulo de classe / cluster, mas eles são intrinsecamente diferentes.

Muitas vezes, o objetivo de um modelo sem supervisão é fornecer insumos mais inteligentes e poderosamente compactos para um modelo supervisionado posterior.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow