我要建一个二进制分类树的使用 相互信息的获得 作为分裂的功能。但是,由于该培训数据偏向一些课程,最好是重量计每个培训例由的逆流的频率。

我如何重量的培训的数据?在计算概率估计熵,我采取的加权平均数?

编辑:我想表达对熵的权重。

有帮助吗?

其他提示

维基百科的文章你引进入加权。它说:

加权变体
在传统制订共同的信息,

alt text

每个事件或指定对象通过(x,y)加权通过的相应概率p(x,y)。这假定所有的事物都是相当的,除了他们的发生概率。然而,在一些应用可能的情况下,某些事物都更加明显比其他人,或者,某种形式的协会都是更多的语义上,重要的是比其他人。

例如,确定性的映射{(1,1),(2,2),(3,3)} 可能被看作是加强(由一些标准)于确定性的映射{(1,3),(2,1),(3,2)}, 虽然这些关系会产生同样的共同信息。这是因为相互的信息不是敏感的,在所有到任何固有的排序的变量值(克朗巴哈α系数1954年,Coombs&道斯1970年,Lockhead1970),因此是不敏感,在所有形式的关系之间的映射的相关变量。如果这是需要的,前者的关系表示协议在所有可变的价值判断强于后来关系,那么就可以用下面的加权相互的信息(Guiasu1977年)

alt text

哪些地方重w(x,y)的概率为每个变量值共现,p(x,y)。这允许某些概率可能带有或多或少的重要性比其他人,从而允许的量化有关的整体或prägnanz因素。在上述例子中,采用较大的相对权重,对w(1、1a),w(2,2),和w(3,3)会有效果的评估更大的信息量的关系{(1,1),(2,2),(3,3)} 比对的关系{(1,3),(2,1),(3,2)}, 这可能希望在一些情况下的模式识别,等等。

http://en.wikipedia.org/wiki/Mutual_information#Weighted_variants

许可以下: CC-BY-SA归因
不隶属于 StackOverflow
scroll top