线性回归

100-Same Tree | Links:

Overview

线性回归是利用特征的线性组合去拟合空间中点的分布和轨迹，进而对连续值结果进行预测
优：简单，基本，可解释性好
劣：只适合表达线性关系
劣：特征工程量大

目标

找到一条直线最好地去接近【拟合】所有样本点

参数

解读系数θ的涵义：在其它变量保持不变的情况下，x增加1个单位对y产生的平均效果

损失函数是凸函数，求解参数的两种方法

最小二乘法

令损失函数导数= 0，求解参数
劣：当数据量大，求矩阵的逆耗时；可能矩阵不可逆

方法2：使用梯度下降法找到全局最低点

\({\theta}^{t}={\theta}^{t-1}-\alpha L^{\prime}\left(\theta^{t-1}\right)\)

梯度下降：损失函数针对参数迭代求导 -> 得到梯度方向，沿着负梯度的方向做迭代，直到最低点
学习率问题：迭代过程中学习率决定迭代步子的大小：α过大->找不到最低点，甚至无法收敛； α太小，收敛太慢

模型优化方向

加入交互项 Interaction
加入非线性：多项式回归
正则化 regularization