如何用信息增益方法选择最佳划分点
文中所说的最佳划分点,是在统计学中很重要的“决策分类问题”。
首先一点,为什么要进行划分,因为划分方法就是建模的过程,为什么要建模?因为为了要预测。。。
(如果你明白建模的意义,下面一段可以忽略)
比如你出去约会一个女生,你不知道怎么样穿衣服才能约会成功。。现在你手中有1000个约会案例,每个人穿着什么样的衣服,裤子,颜色,鞋子款式,有没有帽子,这些“因素”都有记录,最终的结果就是约会成功与否,那么我们就可以构建一个数学模型,它的输入是“衣服,裤子,颜色,鞋子款式”,输出是约会成功与否。。。当这个模型建立成功,你输入你今天穿的衣服,就能知道今天约会会不会成功了。。。-信息增益
ok
下面要讲解ID3算法。(如果您明白ID3或者类似的算法,可以忽略下面的)
我们先在脑子里想象,你现在是一个活动组织者,你如何根据天气判断明天的活动能不能开展呢。。。你不知道,没关系,旅游协会给你一张表
outlook temperature humidity windy --------------------------------------------------------- sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunn y mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N-信息增益
这张表列举了前几次活动中,天气(outlook),温度,湿度,有没有风(windy),对活动最终是否能成功举办的影响。。。我们的问题时,如何用这张表作为判断依据,当我得知天气数据时,就能对能否举办活动作出预测??-信息增益
好,下面我们要介绍“信息熵”这个概念。
信息熵这个概念完全是数学家自己设计出来的。。。(香农:我不是数学家!!)
所以你不用太较真于公式。但是我先把公式给出来。
(来自百度百科)
其中pi是单个信号发生的概率。
“信息熵表示的含义,是一个信息的确定度,信息熵越高表示信息确定度越低,反之亦然”
(哈哈哈,我知道你已经懵B了。。)没关系,你把上面的话记住。我们来举例子解释。
例子,我们知道一打喷嚏,差不多就会感冒了。。。也就是说,打喷嚏和感冒这件事情是高度相关的。。。我们如何用一个量来衡量这种相关度的强弱呢? 答案就是,信息熵!!
假设10个打喷嚏的人里,10个都感冒,那么打喷嚏这个“信号”,所蕴含感冒这个“信息”的确定度是多少呢? 好,10个打喷嚏,10个感冒,那么概率是p=1,那么带入公式H=1*log(1)=0。
信息熵是0,表示打喷嚏和感冒之间的关系是非常确定的,不确定度是0!!
好了好了,我们回来计算吧!
计算步骤如下:
1.该活动无法进行的概率是:5/14 该活动可以进行的概率是:9/14 因此样本集合的信息熵是:-5/14log(5/14) - 9/14log(9/14) = 0.940
2. 接下来我们再看属性outlook信息熵的计算: outlook为sunny时, 该活动无法进行的概率是:3/5 该活动可以进行的概率是:2/5 因此sunny的信息熵是:-3/5log(3/5) - 2/5log(2/5) = 0.971-信息增益
同理可以计算outlook属性取其他值时候的信息熵: outlook为overcast时的信息熵:0 outlook为rain时的信息熵:0.971 属性outlook的信息增益:gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246-信息增益
(这里你可能会问,为什么0.971前面要乘 5/14,这个5/14是,sunny出现的概率,因为我们的命题是,当sunny出现时,结果与sunny的不确定程度。。这是个条件概率,0.971也就是信息熵,表示结果与sunny的不确定程度,前面的5/14表示这个信息熵触发的概率。。如果还无法理解,请参阅《概率论》或者 -信息增益
相似的方法可以计算其他属性的信息增益: gain(temperature) = 0.029 gain(humidity) = 0.151 gain(windy) = 0.048 信息增益最大的属性是outlook。 3.-信息增益
我们把outlook作为决策树的第一层,那么还剩下了三个子集(温度,湿度,风),然后把这3个子集和余下的属性 作为输入递归执行算法。
4.最终的到的决策树如下
参考资料:
信息增益计算
信息增益到底怎么理解呢
信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。
在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。-信息增益
扩展资料:
信息增益相关延伸:增益
一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。电子学上常使用对数单位量度增益,并以贝(bel)作为单位:
Gain = log10(P2/P1) bel
其中P1与P2分别为输入及输出的功率。
由于增益的数值通常都很大,因此一般都使用分贝(dB,贝的10分之1)来表示:
Gain = 10×log10(P2/P1) dB
这就是增益的绝对值与相对值分贝之间的关系。
参考资料来源:百度百科-增益
参考资料来源:百度百科-信息增益