模型评估
100-Same Tree | Links:
机器学习的目标
得到泛化能力强(预测可靠)的简单模型
两种不好的模型状态:欠拟合与过拟合
- 欠拟合 underfitting【能力不够,做不到】
- 模型能力不够,不能够捕捉数据特征,不能拟合现有的样本点
- 反映到评估指标上:在训练和预测时表现都不好
- bias vs. variance trade-off: 偏差大
- 过拟合 overfitting【能力太强,没有约束好】
- 学习能力过强,以至于把训练样本所包含的噪声特性都学到了,泛化能力差
- 反映到评估指标上:模型在训练集上的表现很好,在测试集和新数据上的表现差
- bias vs. variance trade-off: 方差大
欠拟合的解决思路
- 构造更多的特征
- 增加模型复杂度
- 减小正则化系数
过拟合的解决思路
- 增大样本量
- 降低模型复杂度
- 增大正则化系数
- 交叉验证
- 集成学习方法
- earlystopping