纯度: 目标变量的分歧最小, 分歧与数据分类的个数, 次数有关
信息熵: 表示信息的不确定度
信息熵的数学公式:
$$ Entropy(t)=-\sum_{i=0}^{c-1}p(i|t)log_2p(i|t) $$
其中 p(i|t)
代表了节点 t 为分类 i 的概率
举例说明, 假设有2个集合
从数据上看, 集合 a 纯度更高, p(打篮球|6)
= 5/6, p(不打篮球|6)
= 1/6
代入上述公式得
集合b, p(打篮球|6) = p(不打篮球|6)
= 1/2
代入上述公式:
可以看出信息熵越大, 纯度越低. 当集合中所有样本均匀混合时, 信息熵最大, 纯度最低.