Z-Score 可以看到数值的正态分布情况
假设 A 与 B 的考试成绩都为 80 分,A 的考卷满分是 100 分(及格 60 分),B 的考卷满分是 500 分(及格 300 分)。虽然两个人都考了 80 分,但是 A 的 80 分与 B 的 80 分代表完全不同的含义。
那么如何用相同的标准来比较 A 与 B 的成绩呢?Z-Score 就是用来可以解决这一问题的。
我们定义:新数值 =(原数值 - 均值)/ 标准差。
假设 A 所在的班级平均分为 80,标准差为 10。B 所在的班级平均分为 400,标准差为 100。那么 A 的新数值 =(80-80)/10=0,B 的新数值 =(80-400)/100=-3.2。
那么在 Z-Score 标准下,A 的成绩会比 B 的成绩好。
我们能看到 Z-Score 的优点是算法简单,不受数据量级影响,结果易于比较。不足在于,它需要数据整体的平均值和标准差,而且结果没有实际意义,只是用于比较。
其公式为
$$ x = \frac{X-\overline{X}}{\sigma} $$
即 (X - mean()) - std()
假设说明一下矩阵的算法
假设有矩阵如下
$$ \left[\begin{matrix}0 & -3 & 1 \\ 3 & 1 & 2 \\ 0 & 1 & -1\end{matrix}\right] $$
沿着 axis=0 轴 (y轴) 分别计算均值和标准差, 此时有
X.mean(axis=0)
= [ 1. , -0.33333333, 0.66666667])
X.std(axis=0)
= [1.41421356, 1.88561808, 1.24721913]
用python描述如下
from sklearn import preprocessing
import numpy as np
# 初始化数据
x = np.array([[ 0., -3., 1.],
[ 3., 1., 2.],
[ 0., 1., -1.]])
# 将数据进行 Z-Score 规范化
scaled_x = preprocessing.scale(x) # 等价于 (x - x.mean(axis=0)) / x.std(axis=0)
print(scaled_x)
"""
Output:
[[-0.70710678 -1.41421356 0.26726124]
[ 1.41421356 0.70710678 1.06904497]
[-0.70710678 0.70710678 -1.33630621]]
"""