纯度: 目标变量的分歧最小, 分歧与数据分类的个数, 次数有关

信息熵: 表示信息的不确定度

信息熵的数学公式:

$$ Entropy(t)=-\sum_{i=0}^{c-1}p(i|t)log_2p(i|t) $$

其中 p(i|t) 代表了节点 t 为分类 i 的概率

举例说明, 假设有2个集合

从数据上看, 集合 a 纯度更高, p(打篮球|6) = 5/6, p(不打篮球|6) = 1/6

代入上述公式得

集合b, p(打篮球|6) = p(不打篮球|6) = 1/2

代入上述公式:

可以看出信息熵越大, 纯度越低. 当集合中所有样本均匀混合时, 信息熵最大, 纯度最低.