(ESL把线性回归讲的非常丰富,真的开阔视野)
目录
3.2 线性回归模型的最小二乘法3.2.2 高斯-马尔可夫定理3.2.3 从简单单变量回归到多重回归3.2.4 多输出3.3 子集选择3.3.1 最优子集选择3.3.2 向前和向后逐步选择3.3.3 向前分段回归3.4 收缩方法3.4.1 岭回归Lasso Regression3.4.2 Lasso回归3.4.3 讨论:子集的选择,岭回归,Lasso3.4.4 最小角回归Least Angle Regression3.5 派生输入方向的方法3.5.1 主成分回归Principal Components Regression3.5.2 偏最小二乘Partial Least Squares3.7 多输出的收缩和选择3.8 Lasso和相关路径算法的补充3.8.1 增长向前分段回归Incremental Forward Stagewise Regression3.8.2 分段线性路径算法3.8.3 Dantzig选择器Dantzig Selector3.8.4 The Groped Lasso3.8.5 Lasso的更多性质3.8.6 路径坐标优化Pathwise Coordinate Optimization3.9 计算考虑3.2 线性回归模型的最小二乘法
P47 参数服从高斯分布,残差之和/噪声方差服从卡方分布P48 关于单参数是否显著的t检验,关于一组参数是否显著的F检验。可以证明,单参数的F检验和t检验等价。当样本量NNN很大时,F统计量趋于卡方分布P49 参数的区间估计,利用t分布P49 参数的近似置信集合3.2.2 高斯-马尔可夫定理
P51 在给定线性回归的假定下,最小二乘估计是具有最小方差的线性无偏估计量,也符合克拉美——劳不等式(陈希孺《概率论与数理统计》P168)P52 最小方差无偏估计不一定泛化期望均方误差最小,因为可以构造有偏估计,产生一点bias,大幅降低variance。也即L1/L2和子集选择的意义3.2.3 从简单单变量回归到多重回归
P53-54 施密特正交化之后拟合,用QR分解得到原始参数复原(习题3.4)3.2.4 多输出
P56 如果多输出的noise之间不独立,也即有一个协方差矩阵,那么最后的参数矩阵解析解和协方差矩阵无关!(习题3.11)而且最小二乘变成求协方差矩阵下的马氏距离3.3 子集选择
3.3.1 最优子集选择
P57leaps and bounds procedure暴力搜索,当子集大小为30或40的时候。随着大小增加,子集不嵌套3.3.2 向前和向后逐步选择
P58 用QR分解快速进行前向逐步选择Forward-stepwise selection,是一个贪心算法,向模型中依次添加最大程度提升拟合效果的预测变量(如果X\bm XX和残差r\bm rr都中心化了,我算出来挑选特征使最小二乘和使xxx与rrr相关系数最大,是等价的)。子集嵌套。优点是快、能在p≫Np\gg Np≫N时使用、相比leaps and bounds procedure能降方差P59后向逐步选择每次扔掉最小的Z分数Z-score对应的feature,只能在N>pN>pN>p时使用P60 有些软件实现了前向后向逐步的混合策略3.3.3 向前分段回归
P60 向前分段回归Forward-Stagewise,不同于向前逐步选择,每添加一个变量到模型中时,其他参数不调整。所以forward stage需要多于ppp步达到最小二乘。这种“慢拟合”对高维问题效果却很好3.4 收缩方法
3.4.1 岭回归Lasso Regression
P64 L2回归中对偏置项不采用L2正则,否则会出问题,当数据集的YYY整体偏移时,偏置项不应受到L2的影响P66 对X\bm XX(已经中心化之后,也不需要全1增广)做SVD分解的U\bm UU和QR分解的Q\bm QQ,不一样。不过是C(X)C(\bm X)C(X)空间的不同的正交基L2中,对X\bm XXSVD分解后,奇异值大的方向,对y\bm yy拟合贡献大,收缩小,式(3.47)。这就把L2和PCA连接到了一起P68L2的参数的有效数量effective degrees of freedom. 这一块在PRML第三章最后也有提到,两个式子是一样的3.4.2 Lasso回归
P68 和Ridge Regression一样,先要中心化,把截距项估计出来P68 Lasso也叫做basis pursuit问题(缺乏进一步理解)P69 Lasso如果写成等价的带约束形式,那么是一个二次规划问题,式(3.51)。进一步,在这种形式下,讨论收缩率shrinkage factorP70 随着收缩率减小,图3.10 Lasso回归的参数减小是折线的,而Ridge Regression中关于自由度则并不是。3.4.3 讨论:子集的选择,岭回归,Lasso
P69 当X\bm XX不同特征列正交时,子集选择、L1、L2都有解析解P72 MAP中,Lasso Regression和子集选择,不是用后验均值在做决策,而是概率最高的位置。回想一下决策论,概率最高的位置,意味着0次损失最小,后验均值则是在2次损失最小的情况下取到P72 除了L0(子集选择)、L1、L2之外,其他的不考虑。(而在贝叶斯角度,这里应该是要算model evidence的吧,然后最大化广义似然)P73 L1.2 (介于L1和L2之间)和Elastic-net之间的差距肉眼很难看出来了(图3.13),不过Elastic-net仍然会产生稀疏解,而且计算代价低3.4.4 最小角回归Least Angle Regression
P74 最小角意味着feature和residual的最小夹角,意味着最小的内积,意味着最大的相关性P74 非常陌生,整页都值得看P75 LAR和L1的相似性,图3.15. (其实这也能理解,L1中,随着t约束放开,要找贡献最大的特征,那必然是correlation最大的,所以得到LAR),由此得到correlation重合。只要不过0点,那L1和Lar一致。注意思考L1中参数减小时的情况P76 LAR产生L1路径的修改算法。卧槽,这意味着L1回归可以用最小角的方式进行求解,而不用二次规划或者梯度下降. 当p≫Np\gg Np≫N时,很有效P76 同伦 (homotopy) 算法P76 L1和修改后LAR等价的数学原因P77参数有效数量the effective degrees of freedom的一般定义。最优子集选择没有关于自由度的闭式解P79 Lasso、LAR的参数有效数量3.5 派生输入方向的方法
3.5.1 主成分回归Principal Components Regression
P79 主成分回归:做了PCA之后回归,注意做完后各特征独立,所以参数直接把预测向量往特征向量方向几何投影就行P79 PCR和Ridge Regression的相似性,两者都是在主成分上做压缩P80PCR的效果最好,表3.33.5.2 偏最小二乘Partial Least Squares
P81 和3.5.1的PCR相比,偏最小二乘除了最大化主分量方差外,还让分量和y\bm yy的相关系数尽可能大,是一个多因子的优化目标。偏最小二乘整体看上去类似PCR和Ridge RegressionP82 PLS的参数序列也表示了共轭梯度法优化最小二乘3.7 多输出的收缩和选择
P84 对多输出,可以采用不同的L2系数,或相同而L2系数P84典型相关分析canonical correlation analysis(CCA),从X\bm XX和Y\bm YY的列空间中各找一个单位长度分量,使相关系数最大(另外PRML12章也有提到CCA)P84降秩回归reduced-rank regression降秩回归的解和CCA的解(广义SVD)的左典型向量有关P85 CCA直接截断左典型向量(类比PCA),太粗糙。Breiman and Friedman(1997)有一个光滑版本。注意,无论是降秩回归还是光滑版本,都是在Y\bm YY上进行收缩(光滑版本的收缩形式类似L2 SVD分解之后的形式)。此外,该论文还建议同时在Y\bm YY和X\bm XX上收缩,在X\bm XX上的收缩采用Ridge Regression
3.8 Lasso和相关路径算法的补充
这一节很多算法在讨论Path
P86 压缩感知和L1有关
3.8.1 增长向前分段回归Incremental Forward Stagewise Regression
P87 和Forward Stagewise Regression的区别在于每次只走一小步。而且这是个forward-stagewise boosting算法的线性回归版本P87 当步长很小时,该方法记为FS0FS_0FS0,和L1、LAR有一定类似性P88 LAR,Lasso,FS0FS_0FS0的路径中,如果参数沿路径单调,三者完全一样。如果参数不过0,那么LAR和Lasso一样P88 FS0FS_0FS0的参数路径是在L1弧长单位增长中最优的,所以FS0FS_0FS0不经常改变方向。Lasso Regression的路径则是在L1 Norm单位增长中最优的P88 FS0FS_0FS0可以看作是L1的光滑版本,比L1有更多的限制,路径中参数变化更稳定3.8.2 分段线性路径算法
P89 什么样的约束和正则会导出分段线性的路径。进而从这个角度考虑如何用产生路径的方式优化原问题(感觉像是Lasso、LAR等的推广)P89 经验损失关于β\betaβ二次或分段二次,正则项关于β\betaβ分段线性。这样的包括平方损失、绝对值损失、Huberized损失,L1L_1L1正则、L∞L_\inftyL∞正则等。另一个例子是合页损失Hinge loss,从而导出分段线性算法,参考12.3.5节
3.8.3 Dantzig选择器Dantzig Selector
P89 在L1限制下,让最小二乘梯度的L∞L_\inftyL∞范数最小,P90 Dantzig选择器是个线性规划问题,和单纯形有关系P90 Dantzig选择器从相关性的角度产生的一些不好的性质3.8.4 The Groped Lasso
P90 把类别变量one-hot之后,进行分组,每一组内部算参数范数,并且乘组大小的开方3.8.5 Lasso的更多性质
P91Lasso Regression不是一致性估计。用Lasso Regression降低bias,可以先用Lasso选特征,再训LR,或者只对选后的特征再来一次Lasso(relaxed lasso)P92平稳削减绝对偏差法smoothly clipped absolute deviation(SCAD):参数越大,惩罚越平滑。该正则项非凸P93adaptive lasso是对∣β∣q(0<q<1)|\beta|^q\ (0<q<1)∣β∣q(0<q<1)的凸版本近似,每个参数的L1系数为1/∣β^∣ν(ν=1−q>0)1/|\hat \beta|^\nu \ (\nu=1-q>0)1/∣β^∣ν(ν=1−q>0)3.8.6 路径坐标优化Pathwise Coordinate Optimization
P92 坐标上升法优化Lasso,每一步只优化一个参数,这时候有解析解。对所有参数循环优化,直到收敛得到解析解P93 该方法可以对Lasso系数grid search,让它逐步减小,用上一次迭代结果做初始值,这样求解比LAR快P93 同类的算法也可以用在elastic net,grouped lasso等,只要惩罚是个体参数的函数和3.9 计算考虑
P93 最小二乘拟合经常用XTX\bm X^T\bm XXTX的cholesky分解或X\bm XX的QR分解参考文献:
[1] Trevor Hastie, Robert Tibshirani, Jerome Friedman. The Elements of Statistical Learning, Second Edition
[2] ESL CN
ESL第三章 回归的线性方法 系数近似置信集/高斯-马尔可夫定理/正交化 最优子集/向前向后逐步选择/向前分段回归 参数有效数量/最小角回归 主成分/偏最小二乘 多输出收缩 其他L1和路径相关算法
如果觉得《ESL第三章 回归的线性方法 系数近似置信集/高斯-马尔可夫定理/正交化 最优子集/向》对你有帮助,请点赞、收藏,并留下你的观点哦!