×

信息增益

如何用信息增益方法选择最佳划分点?信息增益计算

admin admin 发表于2022-05-03 00:38:41 浏览125 评论0

抢沙发发表评论

如何用信息增益方法选择最佳划分点

文中所说的最佳划分点,是在统计学中很重要的“决策分类问题”。

首先一点,为什么要进行划分,因为划分方法就是建模的过程,为什么要建模?因为为了要预测。。。

(如果你明白建模的意义,下面一段可以忽略)

比如你出去约会一个女生,你不知道怎么样穿衣服才能约会成功。。现在你手中有1000个约会案例,每个人穿着什么样的衣服,裤子,颜色,鞋子款式,有没有帽子,这些“因素”都有记录,最终的结果就是约会成功与否,那么我们就可以构建一个数学模型,它的输入是“衣服,裤子,颜色,鞋子款式”,输出是约会成功与否。。。当这个模型建立成功,你输入你今天穿的衣服,就能知道今天约会会不会成功了。。。-信息增益

ok

下面要讲解ID3算法。(如果您明白ID3或者类似的算法,可以忽略下面的)

我们先在脑子里想象,你现在是一个活动组织者,你如何根据天气判断明天的活动能不能开展呢。。。你不知道,没关系,旅游协会给你一张表

  outlook    temperature    humidity    windy   ---------------------------------------------------------    sunny       hot             high           false       N    sunny       hot             high           true         N    overcast   hot             high           false       P    rain           mild           high           false       P    rain           cool           normal      false       P    rain           cool           normal      true         N    overcast   cool           normal      true         P    sunn y      mild           high           false       N    sunny       cool           normal      false       P    rain           mild           normal      false       P     sunny       mild           normal      true         P     overcast   mild           high           true         P     overcast   hot             normal      false       P     rain           mild           high           true        N-信息增益

这张表列举了前几次活动中,天气(outlook),温度,湿度,有没有风(windy),对活动最终是否能成功举办的影响。。。我们的问题时,如何用这张表作为判断依据,当我得知天气数据时,就能对能否举办活动作出预测??-信息增益

好,下面我们要介绍“信息熵”这个概念。

信息熵这个概念完全是数学家自己设计出来的。。。(香农:我不是数学家!!)

所以你不用太较真于公式。但是我先把公式给出来。

(来自百度百科)

其中pi是单个信号发生的概率。

  • “信息熵表示的含义,是一个信息的确定度,信息熵越高表示信息确定度越低,反之亦然”

(哈哈哈,我知道你已经懵B了。。)没关系,你把上面的话记住。我们来举例子解释。

例子,我们知道一打喷嚏,差不多就会感冒了。。。也就是说,打喷嚏和感冒这件事情是高度相关的。。。我们如何用一个量来衡量这种相关度的强弱呢?  答案就是,信息熵!!

假设10个打喷嚏的人里,10个都感冒,那么打喷嚏这个“信号”,所蕴含感冒这个“信息”的确定度是多少呢? 好,10个打喷嚏,10个感冒,那么概率是p=1,那么带入公式H=1*log(1)=0。

信息熵是0,表示打喷嚏和感冒之间的关系是非常确定的,不确定度是0!!

好了好了,我们回来计算吧!

计算步骤如下:

 1.该活动无法进行的概率是:5/14    该活动可以进行的概率是:9/14    因此样本集合的信息熵是:-5/14log(5/14) - 9/14log(9/14) = 0.940

2. 接下来我们再看属性outlook信息熵的计算:    outlook为sunny时,    该活动无法进行的概率是:3/5    该活动可以进行的概率是:2/5    因此sunny的信息熵是:-3/5log(3/5) - 2/5log(2/5) = 0.971-信息增益

   同理可以计算outlook属性取其他值时候的信息熵:    outlook为overcast时的信息熵:0    outlook为rain时的信息熵:0.971    属性outlook的信息增益:gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246-信息增益

(这里你可能会问,为什么0.971前面要乘 5/14,这个5/14是,sunny出现的概率,因为我们的命题是,当sunny出现时,结果与sunny的不确定程度。。这是个条件概率,0.971也就是信息熵,表示结果与sunny的不确定程度,前面的5/14表示这个信息熵触发的概率。。如果还无法理解,请参阅《概率论》或者  -信息增益

    相似的方法可以计算其他属性的信息增益:    gain(temperature) = 0.029    gain(humidity) = 0.151    gain(windy) = 0.048    信息增益最大的属性是outlook。 3.-信息增益

    我们把outlook作为决策树的第一层,那么还剩下了三个子集(温度,湿度,风),然后把这3个子集和余下的属性    作为输入递归执行算法。

4.最终的到的决策树如下

参考资料:

信息增益计算

ci表示类别i,t与 分别表示特征词的出现与不出现,Pr(ci)为文本中出现ci的概率;Pr(t)为特征出现在训练集中的概率;Pr(ci|t)表示当t出现在文本集中时,文本属于ci的概率;Pr(ci| )表示当t不出现在文本中时,文本属于ci的概率。

信息增益到底怎么理解呢

信息增益(Kullback–Leibler divergence)又叫做information divergence,relative entropy 或者KLIC。

在概率论和信息论中,信息增益是非对称的,用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时,再使用P进行编码的差异。通常P代表样本或观察值的分布,也有可能是精确计算的理论分布。Q代表一种理论,模型,描述或者对P的近似。-信息增益

扩展资料:

信息增益相关延伸:增益

一般指对元器件、电路、设备或系统,其电流、电压或功率增加的程度,以分贝(dB)数来规定,即增益的单位一般是分贝(dB),是一个相对值。电子学上常使用对数单位量度增益,并以贝(bel)作为单位:

Gain = log10(P2/P1) bel

其中P1与P2分别为输入及输出的功率。

由于增益的数值通常都很大,因此一般都使用分贝(dB,贝的10分之1)来表示:

Gain = 10×log10(P2/P1) dB

这就是增益的绝对值与相对值分贝之间的关系。

参考资料来源:百度百科-增益

参考资料来源:百度百科-信息增益