Árvores de Decisão Ponderadas usando Entropy
-
16-09-2019 - |
Pergunta
Estou construindo uma árvore de classificação binária utilizando informação mútua ganho como a função de divisão. Mas desde que os dados de treinamento é direcionada para algumas classes, é aconselhável pesar cada exemplo de treinamento pela freqüência classe inversa.
Como faço para ponderar os dados de treinamento? Ao calcular as probabilidades para estimar a entropia, eu tomar médias ponderadas?
EDIT:. Eu gostaria uma expressão para a entropia com os pesos
Solução
Estado-valor de entropia ponderada como uma medida de risco de investimento.
http: //www56.homepage.villanova. edu / david.nawrocki / State% 20Weighted% 20Entropy% 20Nawrocki% 20Harding.pdf
Outras dicas
O artigo da Wikipedia que você citou entra em ponderação. Ele diz:
variantes Ponderadas
Na formulação tradicional da informação mútua,
cada evento ou objecto especificado por (x, y) é ponderado pela correspondente probabilidade p (x, y). Isso pressupõe que todos os objetos ou eventos são equivalentes para além da sua probabilidade de ocorrência. No entanto, em algumas aplicações pode ser o caso que certos objetos ou eventos são mais significativos do que outros, ou que certos padrões de associação são mais semanticamente importantes do que outros.
Por exemplo, o mapeamento determinista {(1,1), (2,2), (3,3)} pode ser visto como mais forte (por algum padrão) do que o mapeamento determinista {(1,3), ( 2,1), (3,2)}, embora estas relações iria produzir o mesmo informação mútua. Isto é porque a informação mútua não é sensível a todos para qualquer ordenação inerente nos valores das variáveis ??(Cronbach 1954, Coombs e Dawes 1970, Lockhead 1970), e, portanto, não é sensível a todos para a forma do mapeamento relacional entre as variáveis ??associadas . Se for desejado que o ex-relação - mostrando um acordo sobre todos os valores de variáveis ??- ser julgado mais forte do que a relação mais tarde, então é possível usar a seguinte informação mútua ponderada (Guiasu 1977)
o que coloca um peso W (x, y) na probabilidade de cada valor variável co-ocorrência, P (x, y). Isto permite que certas probabilidades podem conter mais ou menos importância do que os outros, permitindo assim a quantificao de factores holísticas ou Prägnanz relevantes. No exemplo acima, usando os pesos relativos maiores para w (1,1), w (2,2), e w (3,3) que tem o efeito de avaliar uma maior capacidade informativa para a relação {(1,1), ( 2,2), (3,3)} do que para a relação {(1,3), (2,1), (3,2)}, que pode ser desejável em alguns casos de reconhecimento de padrões, e semelhantes.
http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants