假设有一个数据如下所示:
一共有3个属性 A1, A2, A3, 假设分别用它们代表身高 = 高、体重 = 中、鞋码 = 中.
一共有两个类别, 假设用 C 代表类别, 那么 C1, C2 分别是 男, 女. 未知情况则用 Cj 表示.
那么在 A1, A2, A3 属性下, Cj 的概率如下所示
$$ P(C_j|A_1A_2A_3)=\frac{P(A_1A_2A_3|C_j)P(C_j)}{P(A_1A_2A_3)} $$
因为一共有 2 个类别,所以我们只需要求得 P(C1|A1A2A3) 和 P(C2|A1A2A3) 的概率即可,然后比较下哪个分类的可能性大,就是哪个分类结果。
在这个公式里,因为 P(A1A2A3) 都是固定的,我们想要寻找使得 P(Cj|A1A2A3) 的最大值,就等价于求 P(A1A2A3|Cj)P(Cj) 最大值。
我们假设 Ai 之间是相互独立的, 则有:
$$ P(A_1A_2A_3|C_j)=P(A_1|C_j)P(A_2|C_j)P(A_3|C_j) $$
求解得:
(在为男性的情况下, 体重为中) =
P(A1|C1) = 1/2
P(A2|C1) = 1/2
P(A3|C1) = 1/4
P(A1|C2) = 0
P(A2|C2) = 1/2
P(A3|C2) = 1/2
代入到上述公式中:
P(A1A2A3|C1)P(C1) = 1/2 * 1/2 * 1/4 * 1/2 = 1 / 32
P(A1A2A3|C2)P(C2) = 0
所以应该是 C1 类别, 即男性