失眠网 > ESL第三章回归的线性方法系数近似置信集/高斯-马尔可夫定理/正交化最优子集/向

ESL第三章回归的线性方法系数近似置信集/高斯-马尔可夫定理/正交化最优子集/向

时间：2023-01-24 14:05:27

（ESL把线性回归讲的非常丰富，真的开阔视野）

3.2 线性回归模型的最小二乘法3.2.2 高斯-马尔可夫定理3.2.3 从简单单变量回归到多重回归3.2.4 多输出3.3 子集选择3.3.1 最优子集选择3.3.2 向前和向后逐步选择3.3.3 向前分段回归3.4 收缩方法3.4.1 岭回归Lasso Regression3.4.2 Lasso回归3.4.3 讨论：子集的选择，岭回归，Lasso3.4.4 最小角回归Least Angle Regression3.5 派生输入方向的方法3.5.1 主成分回归Principal Components Regression3.5.2 偏最小二乘Partial Least Squares3.7 多输出的收缩和选择3.8 Lasso和相关路径算法的补充3.8.1 增长向前分段回归Incremental Forward Stagewise Regression3.8.2 分段线性路径算法3.8.3 Dantzig选择器Dantzig Selector3.8.4 The Groped Lasso3.8.5 Lasso的更多性质3.8.6 路径坐标优化Pathwise Coordinate Optimization3.9 计算考虑

3.2 线性回归模型的最小二乘法

P47 参数服从高斯分布，残差之和/噪声方差服从卡方分布P48 关于单参数是否显著的t检验，关于一组参数是否显著的F检验。可以证明，单参数的F检验和t检验等价。当样本量NNN很大时，F统计量趋于卡方分布P49 参数的区间估计，利用t分布P49 参数的近似置信集合

3.2.2 高斯-马尔可夫定理

P51 在给定线性回归的假定下，最小二乘估计是具有最小方差的线性无偏估计量，也符合克拉美——劳不等式（陈希孺《概率论与数理统计》P168）P52 最小方差无偏估计不一定泛化期望均方误差最小，因为可以构造有偏估计，产生一点bias，大幅降低variance。也即L1/L2和子集选择的意义

3.2.3 从简单单变量回归到多重回归

P53-54 施密特正交化之后拟合，用QR分解得到原始参数复原（习题3.4）

3.2.4 多输出

P56 如果多输出的noise之间不独立，也即有一个协方差矩阵，那么最后的参数矩阵解析解和协方差矩阵无关！（习题3.11）而且最小二乘变成求协方差矩阵下的马氏距离

3.3 子集选择

3.3.1 最优子集选择

P57leaps and bounds procedure暴力搜索，当子集大小为30或40的时候。随着大小增加，子集不嵌套

3.3.2 向前和向后逐步选择

P58 用QR分解快速进行前向逐步选择Forward-stepwise selection，是一个贪心算法，向模型中依次添加最大程度提升拟合效果的预测变量（如果X\bm XX和残差r\bm rr都中心化了，我算出来挑选特征使最小二乘和使xxx与rrr相关系数最大，是等价的）。子集嵌套。优点是快、能在p≫Np\gg Np≫N时使用、相比leaps and bounds procedure能降方差P59后向逐步选择每次扔掉最小的Z分数Z-score对应的feature，只能在N>pN>pN>p时使用P60 有些软件实现了前向后向逐步的混合策略

3.3.3 向前分段回归

P60 向前分段回归Forward-Stagewise，不同于向前逐步选择，每添加一个变量到模型中时，其他参数不调整。所以forward stage需要多于ppp步达到最小二乘。这种“慢拟合”对高维问题效果却很好

3.4 收缩方法

3.4.1 岭回归Lasso Regression

P64 L2回归中对偏置项不采用L2正则，否则会出问题，当数据集的YYY整体偏移时，偏置项不应受到L2的影响P66 对X\bm XX（已经中心化之后，也不需要全1增广）做SVD分解的U\bm UU和QR分解的Q\bm QQ，不一样。不过是C(X)C(\bm X)C(X)空间的不同的正交基L2中，对X\bm XXSVD分解后，奇异值大的方向，对y\bm yy拟合贡献大，收缩小，式（3.47）。这就把L2和PCA连接到了一起P68L2的参数的有效数量effective degrees of freedom. 这一块在PRML第三章最后也有提到，两个式子是一样的

3.4.2 Lasso回归

P68 和Ridge Regression一样，先要中心化，把截距项估计出来P68 Lasso也叫做basis pursuit问题（缺乏进一步理解）P69 Lasso如果写成等价的带约束形式，那么是一个二次规划问题，式（3.51）。进一步，在这种形式下，讨论收缩率shrinkage factorP70 随着收缩率减小，图3.10 Lasso回归的参数减小是折线的，而Ridge Regression中关于自由度则并不是。

3.4.3 讨论：子集的选择，岭回归，Lasso

P69 当X\bm XX不同特征列正交时，子集选择、L1、L2都有解析解P72 MAP中，Lasso Regression和子集选择，不是用后验均值在做决策，而是概率最高的位置。回想一下决策论，概率最高的位置，意味着0次损失最小，后验均值则是在2次损失最小的情况下取到P72 除了L0（子集选择）、L1、L2之外，其他的不考虑。（而在贝叶斯角度，这里应该是要算model evidence的吧，然后最大化广义似然）P73 L1.2 （介于L1和L2之间）和Elastic-net之间的差距肉眼很难看出来了（图3.13），不过Elastic-net仍然会产生稀疏解，而且计算代价低

3.4.4 最小角回归Least Angle Regression

P74 最小角意味着feature和residual的最小夹角，意味着最小的内积，意味着最大的相关性P74 非常陌生，整页都值得看P75 LAR和L1的相似性，图3.15. （其实这也能理解，L1中，随着t约束放开，要找贡献最大的特征，那必然是correlation最大的，所以得到LAR），由此得到correlation重合。只要不过0点，那L1和Lar一致。注意思考L1中参数减小时的情况P76 LAR产生L1路径的修改算法。卧槽，这意味着L1回归可以用最小角的方式进行求解，而不用二次规划或者梯度下降. 当p≫Np\gg Np≫N时，很有效P76 同伦 (homotopy) 算法P76 L1和修改后LAR等价的数学原因P77参数有效数量the effective degrees of freedom的一般定义。最优子集选择没有关于自由度的闭式解P79 Lasso、LAR的参数有效数量

3.5 派生输入方向的方法

3.5.1 主成分回归Principal Components Regression

P79 主成分回归：做了PCA之后回归，注意做完后各特征独立，所以参数直接把预测向量往特征向量方向几何投影就行P79 PCR和Ridge Regression的相似性，两者都是在主成分上做压缩P80PCR的效果最好，表3.3

3.5.2 偏最小二乘Partial Least Squares

P81 和3.5.1的PCR相比，偏最小二乘除了最大化主分量方差外，还让分量和y\bm yy的相关系数尽可能大，是一个多因子的优化目标。偏最小二乘整体看上去类似PCR和Ridge RegressionP82 PLS的参数序列也表示了共轭梯度法优化最小二乘

3.7 多输出的收缩和选择

P84 对多输出，可以采用不同的L2系数，或相同而L2系数P84典型相关分析canonical correlation analysis(CCA)，从X\bm XX和Y\bm YY的列空间中各找一个单位长度分量，使相关系数最大（另外PRML12章也有提到CCA）P84降秩回归reduced-rank regression

降秩回归的解和CCA的解（广义SVD）的左典型向量有关P85 CCA直接截断左典型向量（类比PCA），太粗糙。Breiman and Friedman(1997)有一个光滑版本。注意，无论是降秩回归还是光滑版本，都是在Y\bm YY上进行收缩（光滑版本的收缩形式类似L2 SVD分解之后的形式）。此外，该论文还建议同时在Y\bm YY和X\bm XX上收缩，在X\bm XX上的收缩采用Ridge Regression

3.8 Lasso和相关路径算法的补充

这一节很多算法在讨论Path

P86 压缩感知和L1有关

3.8.1 增长向前分段回归Incremental Forward Stagewise Regression

P87 和Forward Stagewise Regression的区别在于每次只走一小步。而且这是个forward-stagewise boosting算法的线性回归版本P87 当步长很小时，该方法记为FS0FS_0FS0，和L1、LAR有一定类似性P88 LAR，Lasso，FS0FS_0FS0的路径中，如果参数沿路径单调，三者完全一样。如果参数不过0，那么LAR和Lasso一样P88 FS0FS_0FS0的参数路径是在L1弧长单位增长中最优的，所以FS0FS_0FS0不经常改变方向。Lasso Regression的路径则是在L1 Norm单位增长中最优的P88 FS0FS_0FS0可以看作是L1的光滑版本，比L1有更多的限制，路径中参数变化更稳定

3.8.2 分段线性路径算法

P89 什么样的约束和正则会导出分段线性的路径。进而从这个角度考虑如何用产生路径的方式优化原问题

（感觉像是Lasso、LAR等的推广）P89 经验损失关于β\betaβ二次或分段二次，正则项关于β\betaβ分段线性。这样的包括平方损失、绝对值损失、Huberized损失，L1L_1L1正则、L∞L_\inftyL∞正则等。另一个例子是合页损失Hinge loss，从而导出分段线性算法，参考12.3.5节

3.8.3 Dantzig选择器Dantzig Selector

P89 在L1限制下，让最小二乘梯度的L∞L_\inftyL∞范数最小，P90 Dantzig选择器是个线性规划问题，和单纯形有关系P90 Dantzig选择器从相关性的角度产生的一些不好的性质

3.8.4 The Groped Lasso

P90 把类别变量one-hot之后，进行分组，每一组内部算参数范数，并且乘组大小的开方

3.8.5 Lasso的更多性质

P91Lasso Regression不是一致性估计。用Lasso Regression降低bias，可以先用Lasso选特征，再训LR，或者只对选后的特征再来一次Lasso（relaxed lasso）P92平稳削减绝对偏差法smoothly clipped absolute deviation(SCAD)：参数越大，惩罚越平滑。该正则项非凸P93adaptive lasso是对∣β∣q(0<q<1)|\beta|^q\ (0<q<1)∣β∣q(0<q<1)的凸版本近似，每个参数的L1系数为1/∣β^∣ν(ν=1−q>0)1/|\hat \beta|^\nu \ (\nu=1-q>0)1/∣β^∣ν(ν=1−q>0)

3.8.6 路径坐标优化Pathwise Coordinate Optimization

P92 坐标上升法优化Lasso，每一步只优化一个参数，这时候有解析解。对所有参数循环优化，直到收敛得到解析解P93 该方法可以对Lasso系数grid search，让它逐步减小，用上一次迭代结果做初始值，这样求解比LAR快P93 同类的算法也可以用在elastic net，grouped lasso等，只要惩罚是个体参数的函数和