用来作为分配判断的依据的, 我们称之为 决策边界.
决策边界分为两大类, 分别是 线性决策边界 和 非线性决策边界. 拥有线性决策边界的模型我们称之为 线性模型
, 反之为 非线性模型
下图中, 图一为线性模型, 图二图三都为非线性模型
过拟合模型的训练结果“太好了”,以至于在实际应用的过程中,会存在“死板”的情况,导致分类错误。
欠拟合,和过拟合就好比是下面这张图中的第一个和第三个情况一样,训练的结果“太好“,反而在实际应用过程中会导致分类错误。
图一为欠拟合, 未能完整的对数据进行分类
图二为正常的分类结果
图三为过拟合, 分类太过正确
造成过拟合的原因之一就是因为训练集中样本量较小。如果决策树选择的属性过多,构造出来的决策树一定能够“完美”地把训练集中的样本分类,但是这样就会把训练集中一些数据的特点当成所有数据的特点,但这个特点不一定是全部数据的特点,这就使得这个决策树在真实的数据分类中出现错误,也就是模型的“泛化能力”差。
泛化能力
指的分类器是通过训练集抽象出来的分类能力,你也可以理解是举一反三的能力。如果我们太依赖于训练集的数据,那么得到的决策树容错率就会比较低,泛化能力差。因为训练集只是全部数据的抽样,并不能体现全部数据的特点。