O que uma pontuação do Classificador Bayesiano representa?

https://stackoverflow.com/questions/4894167

28-10-2019
|

Pergunta

Estou usando o gema do classificador ruby cujo método de classificação retorna as pontuações de uma determinada string classificada em relação ao modelo treinado.

A pontuação é uma porcentagem?Se sim, a diferença máxima é de 100 pontos?

Solução

É o logaritmo de uma probabilidade.Com um grande conjunto treinado, as probabilidades reais são números muito pequenos, portanto, os logaritmos são mais fáceis de comparar.Teoricamente, as pontuações variam de infinitesimalmente perto de zero até infinito negativo.10**score * 100.0 fornecerá a probabilidade real, que de fato tem uma diferença máxima de 100.

Outras dicas

Na verdade, para calcular a probabilidade de um classificador bayes ingênuo típico, onde b é a base, é b ^ score / (1 + b ^ score). Este é o logit inverso (http://en.wikipedia.org/wiki/Logit) No entanto, dadas as premissas de independência do NBC, essas pontuações tendem a ser muito altas ou muito baixas e as probabilidades calculadas desta forma irão se acumular nos limites . É melhor calcular as pontuações em um conjunto de validação e fazer uma regressão logística precisa (1 ou 0) na pontuação para ter uma ideia melhor da relação entre pontuação e probabilidade.

De um artigo de Jason Rennie: 2.7 As saídas de Naive Bayes são frequentemente excessivas Bancos de dados de texto freqüentemente têm 10.000 a 100.000 palavras de vocabulário distintas; documentos geralmente contêm 100 ou mais termos. Portanto, há uma grande oportunidade para duplicação. Para ter uma noção de quanta duplicação existe, treinamos um MAP Naive Bayes modelo com 80% dos 20 documentos de newsgroups. Produzimos p (cjd; D) (posterior) valores nos 20% restantes dos dados e mostram estatísticas em maxc p (cjd; D) em tabela 2.3. Os valores são altamente exagerados. 60% dos documentos de teste são atribuídos um posterior de 1 quando arredondado para 9 dígitos decimais. Ao contrário da regressão logística, Ingênuo Bayes não é otimizado para produzir valores de probabilidade razoáveis. Regressão logística realiza a otimização conjunta dos coecientes lineares, convergindo para o apropriado valores de probabilidade com dados de treinamento suficientes. Naive Bayes otimiza os coecientes um por um. Produz resultados realistas apenas quando o pressuposto de independência permanece verdadeiro. Quando os recursos incluem informações duplicadas significativas (como geralmente é o caso com texto), os posteriores fornecidos por Naive Bayes são altamente excessivamente tolerantes.

Licenciado em: CC-BY-SA com atribuição

Não afiliado a StackOverflow