离散数据案例

假设有一个数据如下所示:

一共有3个属性 A1, A2, A3, 假设分别用它们代表身高 = 高、体重 = 中、鞋码 = 中.

一共有两个类别, 假设用 C 代表类别, 那么 C1, C2 分别是 男, 女. 未知情况则用 Cj 表示.

那么在 A1, A2, A3 属性下, Cj 的概率如下所示

$$ P(C_j|A_1A_2A_3)=\frac{P(A_1A_2A_3|C_j)P(C_j)}{P(A_1A_2A_3)} $$

因为一共有 2 个类别,所以我们只需要求得 P(C1|A1A2A3) 和 P(C2|A1A2A3) 的概率即可,然后比较下哪个分类的可能性大,就是哪个分类结果。

在这个公式里,因为 P(A1A2A3) 都是固定的,我们想要寻找使得 P(Cj|A1A2A3) 的最大值,就等价于求 P(A1A2A3|Cj)P(Cj) 最大值。

我们假设 Ai 之间是相互独立的, 则有:

$$ P(A_1A_2A_3|C_j)=P(A_1|C_j)P(A_2|C_j)P(A_3|C_j) $$

求解得:

(在为男性的情况下, 体重为中) =

P(A1|C1) = 1/2

P(A2|C1) = 1/2

P(A3|C1) = 1/4

P(A1|C2) = 0

P(A2|C2) = 1/2

P(A3|C2) = 1/2

代入到上述公式中:

P(A1A2A3|C1)P(C1) = 1/2 * 1/2 * 1/4 * 1/2 = 1 / 32

P(A1A2A3|C2)P(C2) = 0

所以应该是 C1 类别, 即男性

连续数值案例