如何用信息增益方法选择最佳划分点？信息增益计算

如何用信息增益方法选择最佳划分点

文中所说的最佳划分点，是在统计学中很重要的“决策分类问题”。

首先一点，为什么要进行划分，因为划分方法就是建模的过程，为什么要建模？因为为了要预测。。。

（如果你明白建模的意义，下面一段可以忽略）

比如你出去约会一个女生，你不知道怎么样穿衣服才能约会成功。。现在你手中有1000个约会案例，每个人穿着什么样的衣服，裤子，颜色，鞋子款式，有没有帽子，这些“因素”都有记录，最终的结果就是约会成功与否，那么我们就可以构建一个数学模型，它的输入是“衣服，裤子，颜色，鞋子款式”，输出是约会成功与否。。。当这个模型建立成功，你输入你今天穿的衣服，就能知道今天约会会不会成功了。。。-信息增益

下面要讲解ID3算法。（如果您明白ID3或者类似的算法，可以忽略下面的）

我们先在脑子里想象，你现在是一个活动组织者，你如何根据天气判断明天的活动能不能开展呢。。。你不知道，没关系，旅游协会给你一张表

outlook temperature humidity windy --------------------------------------------------------- sunny hot high false N sunny hot high true N overcast hot high false P rain mild high false P rain cool normal false P rain cool normal true N overcast cool normal true P sunn y mild high false N sunny cool normal false P rain mild normal false P sunny mild normal true P overcast mild high true P overcast hot normal false P rain mild high true N-信息增益

这张表列举了前几次活动中，天气(outlook)，温度，湿度，有没有风(windy)，对活动最终是否能成功举办的影响。。。我们的问题时，如何用这张表作为判断依据，当我得知天气数据时，就能对能否举办活动作出预测？？-信息增益

好，下面我们要介绍“信息熵”这个概念。

信息熵这个概念完全是数学家自己设计出来的。。。（香农：我不是数学家！！）

所以你不用太较真于公式。但是我先把公式给出来。

（来自百度百科）

其中pi是单个信号发生的概率。

“信息熵表示的含义，是一个信息的确定度，信息熵越高表示信息确定度越低，反之亦然”

（哈哈哈，我知道你已经懵B了。。）没关系，你把上面的话记住。我们来举例子解释。

例子，我们知道一打喷嚏，差不多就会感冒了。。。也就是说，打喷嚏和感冒这件事情是高度相关的。。。我们如何用一个量来衡量这种相关度的强弱呢？答案就是，信息熵！！

假设10个打喷嚏的人里，10个都感冒，那么打喷嚏这个“信号”，所蕴含感冒这个“信息”的确定度是多少呢？好，10个打喷嚏，10个感冒，那么概率是p=1，那么带入公式H=1*log(1)=0。

信息熵是0，表示打喷嚏和感冒之间的关系是非常确定的，不确定度是0！！

好了好了，我们回来计算吧！

计算步骤如下：

1.该活动无法进行的概率是：5/14 该活动可以进行的概率是：9/14 因此样本集合的信息熵是：-5/14log(5/14) - 9/14log(9/14) = 0.940

2. 接下来我们再看属性outlook信息熵的计算： outlook为sunny时，该活动无法进行的概率是：3/5 该活动可以进行的概率是：2/5 因此sunny的信息熵是：-3/5log(3/5) - 2/5log(2/5) = 0.971-信息增益

同理可以计算outlook属性取其他值时候的信息熵： outlook为overcast时的信息熵：0 outlook为rain时的信息熵：0.971 属性outlook的信息增益：gain(outlook) = 0.940 - (5/14*0.971 + 4/14*0 + 5/14*0.971) = 0.246-信息增益

（这里你可能会问，为什么0.971前面要乘 5/14，这个5/14是，sunny出现的概率，因为我们的命题是，当sunny出现时，结果与sunny的不确定程度。。这是个条件概率，0.971也就是信息熵，表示结果与sunny的不确定程度，前面的5/14表示这个信息熵触发的概率。。如果还无法理解，请参阅《概率论》或者 -信息增益

相似的方法可以计算其他属性的信息增益： gain(temperature) = 0.029 gain(humidity) = 0.151 gain(windy) = 0.048 信息增益最大的属性是outlook。 3.-信息增益

我们把outlook作为决策树的第一层，那么还剩下了三个子集（温度，湿度，风），然后把这3个子集和余下的属性作为输入递归执行算法。

4.最终的到的决策树如下

参考资料：

信息增益计算

ci表示类别i，t与分别表示特征词的出现与不出现，Pr(ci)为文本中出现ci的概率；Pr（t）为特征出现在训练集中的概率；Pr(ci|t)表示当t出现在文本集中时，文本属于ci的概率；Pr(ci| )表示当t不出现在文本中时，文本属于ci的概率。

信息增益到底怎么理解呢

信息增益（Kullback–Leibler divergence）又叫做information divergence，relative entropy 或者KLIC。

在概率论和信息论中，信息增益是非对称的，用以度量两种概率分布P和Q的差异。信息增益描述了当使用Q进行编码时，再使用P进行编码的差异。通常P代表样本或观察值的分布，也有可能是精确计算的理论分布。Q代表一种理论，模型，描述或者对P的近似。-信息增益

扩展资料：

信息增益相关延伸：增益

一般指对元器件、电路、设备或系统，其电流、电压或功率增加的程度，以分贝(dB)数来规定，即增益的单位一般是分贝（dB），是一个相对值。电子学上常使用对数单位量度增益，并以贝（bel）作为单位：

Gain = log10(P2/P1) bel

其中P1与P2分别为输入及输出的功率。

由于增益的数值通常都很大，因此一般都使用分贝（dB，贝的10分之1）来表示：

Gain = 10×log10(P2/P1) dB

这就是增益的绝对值与相对值分贝之间的关系。

参考资料来源：百度百科-增益

参考资料来源：百度百科-信息增益

电脑数码网

Nice to meet you, too!

信息增益

如何用信息增益方法选择最佳划分点？信息增益计算

admin 发表于2022-05-03 00:38:41 浏览125 评论0