Z-Score 规范化

Z-Score 可以看到数值的正态分布情况

假设 A 与 B 的考试成绩都为 80 分，A 的考卷满分是 100 分（及格 60 分），B 的考卷满分是 500 分（及格 300 分）。虽然两个人都考了 80 分，但是 A 的 80 分与 B 的 80 分代表完全不同的含义。

那么如何用相同的标准来比较 A 与 B 的成绩呢？Z-Score 就是用来可以解决这一问题的。

我们定义：新数值 =（原数值 - 均值）/ 标准差。

假设 A 所在的班级平均分为 80，标准差为 10。B 所在的班级平均分为 400，标准差为 100。那么 A 的新数值 =(80-80)/10=0，B 的新数值 =(80-400)/100=-3.2。

那么在 Z-Score 标准下，A 的成绩会比 B 的成绩好。

我们能看到 Z-Score 的优点是算法简单，不受数据量级影响，结果易于比较。不足在于，它需要数据整体的平均值和标准差，而且结果没有实际意义，只是用于比较。

其公式为

$$ x = \frac{X-\overline{X}}{\sigma} $$

即 (X - mean()) - std()

假设说明一下矩阵的算法

假设有矩阵如下

$$ \left[\begin{matrix}0 & -3 & 1 \\ 3 & 1 & 2 \\ 0 & 1 & -1\end{matrix}\right] $$

沿着 axis=0 轴 (y轴) 分别计算均值和标准差, 此时有

X.mean(axis=0) = [ 1. , -0.33333333, 0.66666667])

X.std(axis=0) = [1.41421356, 1.88561808, 1.24721913]

用python描述如下

from sklearn import preprocessing
import numpy as np
# 初始化数据
x = np.array([[ 0., -3.,  1.],
              [ 3.,  1.,  2.],
              [ 0.,  1., -1.]])
# 将数据进行 Z-Score 规范化
scaled_x = preprocessing.scale(x) # 等价于 (x - x.mean(axis=0)) / x.std(axis=0)
print(scaled_x)
"""
Output:
[[-0.70710678 -1.41421356  0.26726124]
 [ 1.41421356  0.70710678  1.06904497]
 [-0.70710678  0.70710678 -1.33630621]]
"""