Pergunta

Estou tentando usar o pacote Random Forests para classificação em R.

As medidas de importância variável listadas são:

  • pontuação média de importância bruta da variável x para a classe 0
  • pontuação média de importância bruta da variável x para a classe 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Agora eu sei o que isso "significa", pois conheço suas definições.O que quero saber é como usá-los.

O que eu realmente quero saber é o que esses valores significam apenas no contexto de quão precisos eles são, o que é um valor bom, o que é um valor ruim, quais são os máximos e mínimos, etc.

Se uma variável tiver um valor alto MeanDecreaseAccuracy ou MeanDecreaseGini isso significa que é importante ou sem importância?Além disso, qualquer informação sobre pontuações brutas também pode ser útil.Quero saber tudo o que há para saber sobre esses números que seja relevante para sua aplicação.

Uma explicação que usasse as palavras 'erro', 'soma' ou 'permutado' seria menos útil do que uma explicação mais simples que não envolvesse qualquer discussão sobre como funcionam as florestas aleatórias.

Por exemplo, se eu quisesse que alguém me explicasse como usar um rádio, não esperaria que a explicação envolvesse como um rádio converte ondas de rádio em som.

Foi útil?

Solução

Uma explicação que usa as palavras 'erro', 'soma' ou 'permutada' seria menos útil do que uma explicação mais simples que não envolveu nenhuma discussão sobre como as florestas aleatórias funcionam.

Como se eu quisesse alguém para me explicar como usar um rádio, não esperaria que a explicação envolvesse como um rádio converte ondas de rádio em som.

Como você explicaria o que os números no WKRP 100.5 FM "significam" sem entrar nos detalhes técnicos irritantes das frequências de ondas? Parâmetros francamente e problemas de desempenho relacionados com florestas aleatórias são difíceis de entender, mesmo que você entenda alguns termos técnicos.

Aqui está minha chance de algumas respostas:

-Eman Score de importância crua da variável x para a classe 0

-Mean Raw importância pontuação da variável x para a classe 1

Simplificando da floresta aleatória página da Internet, a pontuação de importância crua mede o quão mais útil do que uma variável preditora específica está classificando com sucesso os dados.

-MeandecReaseAccuracy

Eu acho que isso é apenas no Módulo R., e acredito que ele mede quanta inclusão desse preditor no modelo reduz o erro de classificação.

-MeandCreaseGini

Gini é definido como "desigualdade" quando usado na descrição da distribuição de renda de uma sociedade ou uma medida de "impureza do nó" na classificação baseada em árvores. Um gini baixo (ou seja, maior descascar em Gini) significa que uma variável preditora específica desempenha um papel maior na partição dos dados nas classes definidas. É difícil descrever sem falar sobre o fato de que os dados nas árvores de classificação são divididos em nós individuais com base nos valores dos preditores. Não estou tão claro sobre como isso se traduz em melhor desempenho.

Outras dicas

Para sua preocupação imediata:valores mais altos significam que as variáveis ​​são mais importantes.Isto deve ser verdade para todas as medidas que você menciona.

As florestas aleatórias fornecem modelos bastante complexos, por isso pode ser complicado interpretar as medidas de importância.Se você quiser entender facilmente o que suas variáveis ​​estão fazendo, não use RFs.Em vez disso, use modelos lineares ou uma árvore de decisão (sem conjunto).

Você disse:

Uma explicação que usa as palavras 'erro', 'soma' ou 'permutada' seria menos útil do que uma explicação mais simples que não envolveu nenhuma discussão sobre como as florestas aleatórias funcionam.

Será muito difícil explicar muito mais do que o acima, a menos que você se aprofunde e aprenda sobre florestas aleatórias.Presumo que você esteja reclamando do manual ou da seção do manual de Breiman:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

Para descobrir a importância de uma variável, eles a preenchem com lixo aleatório ("permutam") e, em seguida, observam o quanto a precisão da previsão diminui.MeanDecreaseAccuracy e MeanDecreaseGini funcionam dessa maneira.Não tenho certeza de quais são as pontuações de importância bruta.

A interpretabilidade é um pouco difícil com Random Forests.Embora o RF seja um classificador extremamente robusto, ele faz suas previsões de forma democrática.Com isso quero dizer que você constrói centenas ou milhares de árvores pegando um subconjunto aleatório de suas variáveis ​​e um subconjunto aleatório de seus dados e constrói uma árvore.Em seguida, faça uma previsão para todos os dados não selecionados e salve a previsão.É robusto porque lida bem com os caprichos do seu conjunto de dados (ou seja, suaviza valores aleatoriamente altos/baixos, gráficos/amostras fortuitas, medindo a mesma coisa de 4 maneiras diferentes, etc.).No entanto, se você tiver algumas variáveis ​​altamente correlacionadas, ambas podem parecer importantes, pois nem sempre estão incluídas em cada modelo.

Uma abordagem potencial com florestas aleatórias pode ser ajudar a reduzir seus preditores e depois mudar para o CART normal ou experimentar o pacote PARTY para modelos de árvore baseados em inferência.No entanto, você deve ter cuidado com questões de mineração de dados e fazer inferências sobre parâmetros.

Licenciado em: CC-BY-SA com atribuição
Não afiliado a StackOverflow
scroll top