失眠网 > 最小二乘加权最小二乘（WLS）迭代加权最小二乘（迭代重加全最小二乘）（IRLS）

最小二乘加权最小二乘（WLS）迭代加权最小二乘（迭代重加全最小二乘）（IRLS）

时间：2022-09-17 19:09:49

最小二乘、加权最小二乘（WLS）、迭代加权最小二乘（迭代重加全最小二乘）（IRLS）

最小二乘：

最小二乘法（又称最小平方法）是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。

X=[x11x12...x21x22...x31x32.........xmn]X=\begin{bmatrix} x_{11} & x_{12} & ... \\ x_{21} & x_{22} & ... \\ x_{31} & x_{32} & ... \\ ... & ... & x_{mn} \end{bmatrix}X=⎣⎢⎢⎡x11x21x31...x12x22x32............xmn⎦⎥⎥⎤ Y=[y1...ym]Y=\begin{bmatrix} y_{1}\\ ...\\ y_{m} \end{bmatrix}Y=⎣⎡y1...ym⎦⎤ θ=[θ1...θn]\mathbf{\theta}=\begin{bmatrix} \theta_{1}\\ ...\\ \theta_{n} \end{bmatrix}θ=⎣⎡θ1...θn⎦⎤

XXX中每一列为特征，每一行代表一个样本；YYY为标签；θ\thetaθ是参数

有优化问题：f(θ)=12∣∣Xθ−Y∣∣2f(\theta)=\frac{1}{2}\left | \left | X\theta-Y \right | \right |^{2}f(θ)=21∣∣Xθ−Y∣∣2

f(θ)=12(θTXTXθ−θTXTY−YTXθ+YTY)f(\mathbf{\theta})=\frac{1}{2}(\mathbf{\theta}^{T}X^{T}X\mathbf{\theta}-\mathbf{\theta}^{T}X^{T}Y-Y^{T}X\mathbf{\theta}+Y^{T}Y)f(θ)=21(θTXTXθ−θTXTY−YTXθ+YTY)

对函数f(θ)f(\theta)f(θ)关于参数θ\mathbf{\theta}θ求偏导：∂f(θ))∂θ=XTXθ−XTY=0\frac{\partial f(\mathbf{\theta}))}{\partial \mathbf{\theta}}=X^{T}X\mathbf{\theta}-X^{T}Y=0∂θ∂f(θ))=XTXθ−XTY=0

θ=(XTX)−1XTY\mathbf{\theta}=(X^{T}X)^{-1}X^{T}Yθ=(XTX)−1XTY

得到θ\mathbf{\theta}θ的解析解。

加权最小二乘（WLS）：

加权最小二乘是在普通最小二乘的基础上对每个样本引入权重，调整不同样本误差对损失函数的贡献率。

加权最小二乘法是对原模型进行加权，使之成为一个新的不存在异方差性的模型，然后采用普通最小二乘法估计其参数的一种数学优化技术。
异方差性是相对于同方差而言的。所谓同方差，是为了保证回归参数估计量具有良好的统计性质，经典线性回归模型的一个重要假定：总体回归函数中的随机误差项满足同方差性，即它们都有相同的方差。

XXX、YYY、θ\thetaθ定义如上，引入对角矩阵WWW

W=[w11...000w22...0............00...wmm]W=\begin{bmatrix} w_{11} & ... &0 & 0\\ 0 & w_{22} &... &0 \\ ...& ... & ... &... \\ 0& 0& ... & w_{mm} \end{bmatrix}W=⎣⎢⎢⎡w110...0...w22...00.........00...wmm⎦⎥⎥⎤

损失函数变为：f(θ)=12∥W(Xθ−Y)∥2f(\mathbf{\theta})=\frac{1}{2}\left \| W(X\mathbf{\theta}-Y) \right \|^{2}f(θ)=21∥W(Xθ−Y)∥2

f(θ)=12(WθTXTAθ−WθTATY−WYTAθ+WYTY)f(\mathbf{\theta})=\frac{1}{2}(W\mathbf{\theta}^{T}X^{T}A\mathbf{\theta}-W\mathbf{\theta}^{T}A^{T}Y-WY^{T}A\mathbf{\theta}+WY^{T}Y)f(θ)=21(WθTXTAθ−WθTATY−WYTAθ+WYTY)

对函数f(θ)f(\theta)f(θ)关于参数θ\mathbf{\theta}θ求偏导：∂f(θ)∂θ=−XTWTWY+XTWTWXθ=0\frac{\partial f(\mathbf{\theta})}{\partial \mathbf{\theta}}=-X^{T}W^{T}WY+X^{T}W^{T}WX\mathbf{\theta}=0∂θ∂f(θ)=−XTWTWY+XTWTWXθ=0

θ=(XTWTWX)−1XTWTWY\ \mathbf{\theta}=(X^{T}W^{T}WX)^{-1}X^{T}W^{T}WYθ=(XTWTWX)−1XTWTWY

迭代重加权最小二乘（IRLS）：

迭代重加权最小二乘（IRLS）与迭代加权最小二乘（IWLS）虽然名字不一样，但是内容确实一样，IRLS与IWLS指的都是同一种算法，（我在网上查了很多博客，发现许多人喜欢把IRLS叫做迭代加权最小二乘）
IRLS用来求解p范数的问题，将p范数问题转化为2范数求解。

目标函数：f(θ)=∥AX−Y∥ppf(\mathbf{\theta})=\left \| AX-Y \right \|_{p}^{p}f(θ)=∥AX−Y∥pp，这里的∥AX−Y∥p\left \| AX-Y \right \|_{p}∥AX−Y∥p是一个ppp范数。计算方式如：∥X∥p=x1p+x2p+...+xmpp\left \| X \right \|_{p}=\sqrt[p]{x_{1}^{p}+x_{2}^{p}+...+x_{m}^{p}}∥X∥p=px1p+x2p+...+xmp。

所以f(θ)=argmin⁡θ∑i=1m(xiθ−yi)pf(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}(x_{i}\mathbf{\theta}-y_{i})^{p}f(θ)=θargmin∑i=1m(xiθ−yi)p

f(θ)=argmin⁡θ∑i=1m(xiθ−yi)p−2(xiθ−yi)2f(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}(x_{i}\mathbf{\theta}-y_{i})^{p-2}(x_{i}\mathbf{\theta}-y_{i})^{2}f(θ)=θargmini=1∑m(xiθ−yi)p−2(xiθ−yi)2

f(θ)=argmin⁡θ∑i=1mwi2(xiθ−yi)2f(\mathbf{\theta})=\underset{\mathbf{\theta}}{arg\min}\sum_{i=1}^{m}w_{i}^{2}(x_{i}\mathbf{\theta}-y_{i})^{2}f(θ)=θargmini=1∑mwi2(xiθ−yi)2

所以：

wi2=∣xiθ−yi∣p−2w_{i}^{2}=|x_{i}\mathbf{\theta}-y_{i}|^{p-2}wi2=∣xiθ−yi∣p−2

wi=∣xiθ−yi∣p−22w_{i}=|x_{i}\mathbf{\theta}-y_{i}|^{\frac{p-2}{2}}wi=∣xiθ−yi∣2p−2

写成矩阵形式就是：

f(θ)=12∣∣W(Xθ−Y)∣∣2=12W2∥Xθ−Y∥2f(\mathbf{\theta})=\frac{1}{2}||W(X\mathbf{\theta}-Y)||^{2}=\frac{1}{2}W^{2}\left \| X\mathbf{\theta}-Y \right \|^{2}f(θ)=21∣∣W(Xθ−Y)∣∣2=21W2∥Xθ−Y∥2

θnew=(XTWnewTWnewX)−1XTWnewTWnewY\mathbf{\theta}_{new}=(X^{T}W^{T}_{new}W_{new}X)^{-1}X^{T}W^{T}_{new}W_{new}Yθnew=(XTWnewTWnewX)−1XTWnewTWnewY

Wnew=∣Xθold−Y∣p−22W_{new}=|X\mathbf{\theta}_{old}-Y|^{\frac{p-2}{2}}Wnew=∣Xθold−Y∣2p−2

IRLS参考文献：Burrus C S. Iterative re-weighted least squares[J]. Comm.pure Appl.math, , 44(6):1-9.

如果觉得《最小二乘加权最小二乘（WLS）迭代加权最小二乘（迭代重加全最小二乘）（IRLS）》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。