失眠网 > [学习笔记] [机器学习] 4. [上] 线性回归（线性回归损失函数优化算法：正规方

[学习笔记] [机器学习] 4. [上] 线性回归（线性回归损失函数优化算法：正规方

时间：2021-12-06 23:54:47

视频链接数据集下载地址：无需下载

本文学习目标：

掌握线性回归的实现过程应用LinearRegression或SGDRegressor实现回归预测知道回归算法的评估标准及其公式知道过拟合与欠拟合的原因以及解决方法知道岭回归的原理及与线性回归的不同之处应用Ridge实现回归预测应用joblib实现模型的保存与加载

1. 线性回归简介

学习目标：

了解线性回归的应用场景知道线性回归的定义

1.1 线性回归应用场景

房价预测销售额度预测贷款额度预测

举例：

华氏度与摄氏度直接的转换可以通过线性回归计算得得到。

1.2 什么是线性回归

1.2.1 定义与公式

一、定义

线性回归模型是机器学习中最简单、最基础的一类有监督学习模型。它要处理的一类问题是：给定一组输入样本，和每个样本对应的目标值，需要在某一损失准则下，找到（学习到）目标值和输入值的函数关系。这样，当有一个新的样本到达时，就可以根据这个函数关系预测出它的目标值。

简言之，线性回归（Linear Regression）是利用回归方程（函数）对一个或多个自变量（特征值）和一个因变量（目标值）之间关系进行建模的一种分析方式。

只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归。

线性回归的特点：

线性回归模型有很好的可解释性，可以从模型权重 W W W 直接看出每个特征对结果的影响程度。它适用于X和y之间存在线性关系的数据集，可以使用计算机辅助画出散点图来观察是否存在线性关系。

二、公式

线性回归的公式表达形式为

h ( w ) = w 1 x 1 + w 2 x 2 + . . . + b = W T + b \begin{aligned} h(w) & = w_1x_1 + w_2x_2 + ... + b\\ &=W^T + b \end{aligned} h(w)=w1x1+w2x2+...+b=WT+b

其中， W = { w 1 , w 2 , . . . } W=\{w_1, w_2, ...\} W={w1,w2,...} 和 X = { x 1 , x 2 , . . . } X=\{x_1, x_2, ...\} X={x1,x2,...} 可以理解为矩阵，即 W = [ b w 1 w 2 ] W=\begin{bmatrix}b \\ w_1 \\ w_2\end{bmatrix} W= bw1w2 ， X = [ 1 x 1 x 2 ] X=\begin{bmatrix} 1 \\ x_1 \\ x_2 \end{bmatrix} X= 1x1x2

举例：线性回归用矩阵表示

{ 1 × x 1 + x 2 = 2 0 × x 1 + x 2 = 2 2 × x 1 + x 2 = 3 \begin{cases} 1 \times x_1 + x_2 = 2 \\ 0 \times x_1 + x2 = 2 \\ 2 \times x_1 + x2 = 3 \end{cases} ⎩ ⎨ ⎧1×x1+x2=20×x1+x2=22×x1+x2=3

写成矩阵的形式：

[ 1 1 0 1 2 1 ] A × [ x 1 x 2 ] X = [ 2 2 3 ] b \underset{A}{\begin{bmatrix} 1 & 1 \\ 0 & 1 \\ 2 & 1 \\ \end{bmatrix}} \times \underset{X}{\begin{bmatrix} x_1 \\ \\ x_2 \end{bmatrix}} = \underset{b}{\begin{bmatrix} 2 \\ 2 \\ 3 \end{bmatrix}} A 102111 ×X x1x2 =b 223

从列的角度看：

[ 1 0 2 ] a 1 × x 1 + [ 1 1 1 ] a 2 × x 2 = [ 2 2 3 ] b \underset{a_1}{\begin{bmatrix} 1 \\ 0 \\ 2 \\ \end{bmatrix}} \times x_1 + \underset{a_2}{\begin{bmatrix} 1 \\ 1 \\ 1 \\ \end{bmatrix}} \times x_2 = \underset{b}{\begin{bmatrix} 2 \\ 2 \\ 3 \\ \end{bmatrix}} a1 102 ×x1+a2 111 ×x2=b 223

那么怎么理解呢？我们来看几个例子：

期末成绩 = 0.7 × 考试成绩 + 0.3 × 平时成绩房子价格 = 0.02 × 中心区域的距离 + 0.04 × 城市一氧化氮浓度 + (-0.12 × 自住房平均房价) + 0.254 × 城镇犯罪率

上面两个例子，我们看到特征值与目标值之间建立了一种关系，这种关系可以理解为线性模型。

1.2.2 线性回归的特征与目标的关系分析

线性回归当中主要有两种模型，一种是线性关系，另一种是非线性关系。在这里我们只画一个平面以更好地理解，所以都用单个特征或两个特征举例子。

1.1 线性关系：单变量线性关系

1.2 线性关系：多变量线性关系

总结：单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面关系。对于更高维度的我们不用自己去想，记住这种关系即可。

一对多或者多对一

2.1 非线性关系

Q：上图中为什么是非线性关系呢？

A：如果是非线性关系，那么回归方程可以理解为：

w 1 x 1 + w 2 x 2 2 + w 3 2 w_1 x_1 + w_2 x_2^2 + w_3^2 w1x1+w2x22+w32

因为涉及到平方，所以就是不再是线性关系了！

小结：

线性回归的定义【了解】利再回归方程（函数）对一个或多个自变量（特征值）和因变量（目标值）之间关系进行建模的一种分析方式。线性回归的分类【知道】线性关系非线性关系

2. 线性回归 API 的初步使用

学习目标：

知道线性回归api的简单使用

2.1 线性回归 API

sklearn.linear_model.LinearRegression(fit_intercept=True, copy_X=True, n_jobs=None, positive=False)

作用：LinearRegression是 scikit-learn 库中的一个线性回归模型。它可以用来拟合一个线性模型，以最小化数据点和拟合直线之间的残差平方和。主要参数：fit_intercept：布尔值，默认为True。指定是否计算截距项。normalize：布尔值，默认为False。指定是否对数据进行标准化处理。copy_X：布尔值，默认为True。指定是否复制输入数据。n_jobs：整数或None，默认为None。指定用于计算的 CPU 核心数。主要方法：fit(X, y[, sample_weight])：用于拟合线性模型。get_params([deep])：获取模型的参数。predict(X)：用于预测目标变量。score(X, y[, sample_weight])：返回模型的预测性能得分。set_params(**params)：设置模型的参数。主要属性：LinearRegression.coef_：回归系数。LinearRegression.coef_是LinearRegression类的一个属性，它返回线性模型的系数。在拟合线性模型后，可以通过访问coef_属性来获取模型的系数。例如，如果我们拟合了一个一元线性回归模型，那么coef_属性将返回一个一维数组，其中包含模型的斜率。如果我们拟合了一个多元线性回归模型，那么coef_属性将返回一个一维数组，其中包含每个自变量的系数。

coef是 coefficient 的缩写

coefficient：英[ˌkəʊɪˈfɪʃnt] 美[ˌkoʊɪˈfɪʃnt]
n. (测定物质某种特性的)系数; adj. 共同作用的;

2.2 举例

上图中，给了特征值（平时成绩、期末成绩）和目标值（最终成绩），我们可以利用线性回归来求出两者的关系，进而知道“平时成绩”和“期末成绩”的比重（这个比重也就是线性回归模型的权重）。

2.2.1 步骤分析

获取数据集数据基本处理（该案例中省略）特征工程（该案例中省略）机器学习模型评估（该案例中省略）

2.2.2 代码实现

Step 1. 导入模块

from sklearn.linear_model import LinearRegression

Step 2. 构造数据集

x = [[80, 86], [82, 80], [85, 78], [90, 90], [86, 82], [82, 90], [78, 80], [92, 94]]y = [84.2, 80.6, 80.1, 90, 83.2, 87.6, 79.4, 93.4]

Step 3. 机器学习 —— 模型训练

# 实例化线性回归模型estimator = LinearRegression()# 使用fit方法进行训练estimator.fit(X=x, y=y)res = estimator.predict([[100, 80]])print("模型（线性回归）的系数为：", estimator.coef_)print("预测[100, 80]的结果为：", res)

运行结果：

模型（线性回归）的系数为： [0.3 0.7]预测[100, 80]的结果为： [86.]

小结：

sklearn.linear_model.LinearRegression()LinearRegression.coef_：线性回归的系数

3. 数学：求导

学习目标：

知道常见的求导方法知道导数的四则运算

3.1 常见函数的导数

3.2 导数的四则运算

3.3 矩阵（向量）求导【了解】

下面这个表格是关于偏导数的。它列出了一些常见的偏导数表达式及其分子布局。每一行都给出了一个特定的条件和表达式，以及两种不同的分子布局。

其中：

I \mathrm{I} I：单位矩阵 A \mathrm{A} A：矩阵 A \mathrm{A} A A T \mathrm{A}^\mathrm{T} AT：矩阵 A \mathrm{A} A 的转置 u = u ( x ) \mathrm{u}=\mathrm{u}(x) u=u(x)： u \mathrm{u} u 是 x x x 的函数 v = v ( x ) \mathrm{v} = \mathrm{v}(x) v=v(x)： v \mathrm{v} v 是 x x x 的函数

“分子布局：按 y y y 和 x T x^\mathrm{T} xT 排列”和“分子布局：按 y T y^\mathrm{T} yT 和 x x x 排列”是指偏导数表达式的分子中矩阵的排列顺序。这两个术语描述的是偏导数表达式分子中矩阵的排列顺序。可以把它们想象成两种不同的方式来组合矩阵。

在“分子布局：按 y y y 和 x T x^\mathrm{T} xT 排列”中，矩阵是按照 y y y 和 x T x^\mathrm{T} xT 的顺序排列的。例如，在第6行中， ∂ v u ∂ x = v ∂ u ∂ x + u ∂ v ∂ x \frac{\partial{\mathrm{v}\mathrm{u}}}{\partial{x}}=\mathrm{v}\frac{\partial{\mathrm{u}}}{\partial{x}} + \mathrm{u}\frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂vu=v∂x∂u+u∂x∂v，其中 v \mathrm{v} v 在 ∂ u ∂ x \frac{\partial{\mathrm{u}}}{\partial{x}} ∂x∂u 前面， u \mathrm{u} u 在 ∂ v ∂ x \frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂v 前面。

在“分子布局：按 y T y^\mathrm{T} yT 和 x x x 排列”中，矩阵是按照 y T y^\mathrm{T} yT 和 x x x 的顺序排列的。例如，在第6行中， ∂ v u ∂ x = v ∂ u ∂ x + ∂ v ∂ x u T \frac{\partial{\mathrm{v}\mathrm{u}}}{\partial{x}}=\mathrm{v}\frac{\partial{\mathrm{u}}}{\partial{x}} + \frac{\partial{\mathrm{v}}}{\partial{x}} \mathrm{u}^\mathrm{T} ∂x∂vu=v∂x∂u+∂x∂vuT，其中 ∂ v ∂ x \frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂v 在 u T \mathrm{u}^\mathrm{T} uT 前面。

形象地说明：

在第6行中， ∂ v u ∂ x = v ∂ u ∂ x + u ∂ v ∂ x \frac{\partial{\mathrm{v}\mathrm{u}}}{\partial{x}}=\mathrm{v}\frac{\partial{\mathrm{u}}}{\partial{x}} + \mathrm{u}\frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂vu=v∂x∂u+u∂x∂v。在“分子布局：按 y y y 和 x T x^\mathrm{T} xT 排列”中， v \mathrm{v} v 和 u \mathrm{u} u 都在它们对应的偏导数前面，就像两个人站在一起，先是 v \mathrm{v} v，然后是 ∂ u ∂ x \frac{\partial{\mathrm{u}}}{\partial{x}} ∂x∂u，再是 u \mathrm{u} u，最后是 ∂ v ∂ x \frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂v。而在“分子布局：按 y T y^\mathrm{T} yT 和 x x x 排列”中， ∂ v ∂ x \frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂v 在 u T \mathrm{u}^\mathrm{T} uT 前面，就像两个人站在一起，先是 v \mathrm{v} v，然后是 ∂ u ∂ x \frac{\partial{\mathrm{u}}}{\partial{x}} ∂x∂u，再是 ∂ v ∂ x \frac{\partial{\mathrm{v}}}{\partial{x}} ∂x∂v，最后是 u T \mathrm{u}^\mathrm{T} uT。

来源：/wiki/Matrix_calculus#lScalar-by-vector_identities

4. 损失函数

学习目标：

知道线性回归中损失函数

假设在刚才房子的例子中，真实的数据之间存在这样的关系：

真实关系: 真实房子价格 = 0.02 × 中心区域的距离 + 0.04 × 城市一氧化氮浓度 + (-0.12 × 自住房平均房价) + 0.254 × 城镇犯罪率

那么现在我们随意指定一个关系（猜测）：

猜测关系: 预测房子价格 = 0.25 × 中心区域的距离 + 0.14 × 城市一氧化氮浓度 + 0.42 × 自住房平均房价 + 0.34 × 城镇犯罪率

请问这样的话，会发生什么？真实结果与我们预测的结果之间是不是存在一定的误差呢？类似下图这样：

很明显，红色的线预测得更加准确，而绿色的线不准确。

Q：仅凭肉眼区别是否准确是不科学的，那么我们应该如何量化呢？

A：这就是我们要学习的内容 —— 损失函数。

损失函数（Loss Function）是机器学习中关键的一个组成部分，用来衡量模型的输出与真实值之间的差距，给模型的优化指明方向。

【损失函数的输入】损失函数将以两项作为输入：①模型的输出值和 ②标准答案的期望值。【损失函数的输出】损失函数的输出称为损失，它是衡量我们的模型在预测结果方面做得有多好。损失的高值意味着我们的模型性能很差。较低的损耗值意味着我们的模型表现非常好。

损失函数的通用公式表达为：

L ( w 1 , w 2 , . . . ) = 1 n [ f ( y 1 , y ^ 1 ) + f ( y 2 , y ^ 2 ) + . . . + f ( y n , y ^ n ) ] = 1 n ∑ i = 1 n ( f ( y i , y ^ i ) ) \begin{aligned} \mathcal{L}(w_1, w_2, ...) & = \frac{1}{n}[f(y_1, \hat{y}_1) + f(y_2, \hat{y}_2) + ... + f(y_n, \hat{y}_n)] \\ & = \frac{1}{n}\sum_{i = 1}^{n}(f(y_i, \hat{y}_i)) \end{aligned} L(w1,w2,...)=n1[f(y1,y^1)+f(y2,y^2)+...+f(yn,y^n)]=n1i=1∑n(f(yi,y^i))

其中：

w 1 , w 2 , . . . w_1, w_2, ... w1,w2,... 表示模型的权重，参数的数量取决于模型的复杂度和数据的特征数量。它们的数量与数据的特征数量有关，与样本数量 n n n 无关。 n n n 是样本数量 y i y_i yi 是第 i i i 个样本的真实值 y i ^ \hat{y_i} yi^ 是第 i i i 个样本的预测值 f ( a , b ) f(a, b) f(a,b) 表明如何处理输入值的公式，常见的有：均方误差（Mean Squared Error，MSE）：用于回归问题，计算预测值与真实值之间距离的平方和。平均绝对误差（Mean Absolute Error，MAE）：用于回归问题，计算预测值与真实值之间距离的绝对值之和。交叉熵损失（Cross-Entropy Loss）：用于分类问题，计算真实类别的概率分布与预测概率分布之间的差异。Hinge Loss：用于支持向量机（SVM）分类问题。L1损失函数：用于回归问题，计算预测值与真实值之间的绝对值之和。L2损失函数：用于回归问题，计算预测值与真实值之间距离的平方和。

Q：如何去减少这个损失，使我们预测的更加准确些？

A：既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归里更能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失。

5. 优化算法

学习目标：

知道使用正规方程对损失函数优化的过程知道使用梯度下降法对损失函数优化的过程

如何去求模型参数 W W W，使得损失最小？(目的是找到最小损失对应的模型参数 W W W 值)

线性回归经常使用的两种优化算法：

正规方程梯度下降法

5.1 正规方程（Normal Equation）

5.1.1 什么是正规方程

正规方程（Normal Equation）是一种用于求解线性回归问题的解析方法。它通过求解线性方程组来直接计算模型的最优权重（一步完事儿😂），而不需要使用迭代优化算法（如梯度下降法）。正规方程的公式表达为：

W ∗ = ( X T X ) − 1 X T y W^* = (X^TX)^{-1}X^Ty W∗=(XTX)−1XTy

其中 X X X 是数据矩阵， y y y 是真实值向量， W ∗ = w 1 ∗ , w 2 ∗ , . . . W^* = w^*_1, w^*_2, ... W∗=w1∗,w2∗,... 是模型的最优权重向量。

正规方程的优点：计算简单，不需要选择学习率等超参数。正规方程的缺点：当数据特征数量较大时，计算 ( X T X ) − 1 (X^TX)^{-1} (XTX)−1 的时间复杂度较高，因此不适用于大规模数据集。

理解： X X X 为特征值矩阵， y y y 为目标值矩阵。直接一步求出最好的结果

缺点：当特征过多过复杂时，求解速度太慢并且得不到结果。

5.1.2 正规方程求解举例

我们可以将表格中的数据转换为矩阵的形式。

X = [ 1 2104 5 1 45 1 1416 3 2 40 1 1534 3 2 30 1 852 2 1 36 ] , y = [ 460 232 315 178 ] X = \begin{bmatrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{bmatrix}, \quad y = \begin{bmatrix} 460 \\ 232 \\ 315 \\ 178 \end{bmatrix} X= 11112104141615348525332122145403036 ,y= 460232315178

其中， X X X 是自变量矩阵，每一行表示一个样本，每一列表示一个特征； y y y 是因变量向量，每一行表示一个样本的真实值。

即：

正规方程（Normal Equation）是一种用于求解线性回归问题的解析方法。它通过求解线性方程组来直接计算模型的最优权重，而不需要使用迭代优化算法（如梯度下降法）。正规方程的公式表达为：

W = ( X T X ) − 1 X T y = ( [ 1 1 1 1 2104 1416 1534 852 5 3 3 2 1 2 2 1 45 40 30 36 ] [ 1 2104 5 1 45 1 1416 3 2 40 1 1534 3 2 30 1 852 2 1 36 ] ) − 1 × [ 1 1 1 1 2104 1416 1534 852 5 3 3 2 1 2 2 1 45 40 30 36 ] [ 460 232 315 178 ] W = (X^TX)^{-1}X^Ty = \\ \left(\begin{bmatrix} 1 & 1 & 1 & 1 \\ 2104 & 1416 & 1534 & 852 \\ 5 & 3 & 3 & 2 \\ 1 & 2 & 2 & 1 \\ 45 & 40 & 30 & 36 \end{bmatrix} \begin{bmatrix} 1 & 2104 & 5 & 1 & 45 \\ 1 & 1416 & 3 & 2 & 40 \\ 1 & 1534 & 3 & 2 & 30 \\ 1 & 852 & 2 & 1 & 36 \end{bmatrix}\right)^{-1} \times \begin{bmatrix} 1 & 1 & 1 & 1 \\ 2104 & 1416 & 1534 & 852 \\ 5 & 3 & 3 & 2 \\ 1 & 2 & 2 & 1 \\ 45 & 40 & 30 & 36 \end{bmatrix} \begin{bmatrix} 460 \\ 232 \\ 315 \\ 178 \end{bmatrix} W=(XTX)−1XTy= 12104514511416324011534323018522136 11112104141615348525332122145403036 −1× 12104514511416324011534323018522136 460232315178

上面的方程是非常难求的，因为涉及到了矩阵的逆。

5.1.3 正规方程的推导

我们以最小二乘法为例。

L ( w 1 , w 2 , . . . ) = ( y 1 − y ^ 1 ) 2 + ( y 2 − y ^ 2 ) 2 + ( y n − y ^ n ) 2 = ∑ i = 1 n ( y i − y ^ i ) 2 \begin{aligned} \mathcal{L}(w_1, w_2, ...) & = (y_1 - \hat{y}_1)^2 + (y_2 - \hat{y}_2)^2 + (y_n - \hat{y}_n)^2 \\ & = \sum_{i=1}^n(y_i - \hat{y}_i)^2 \end{aligned} L(w1,w2,...)=(y1−y^1)2+(y2−y^2)2+(yn−y^n)2=i=1∑n(yi−y^i)2

推导方式一：

把该损失函数转换成矩阵写法：

L ( w 1 , w 2 , . . . ) = ∑ i = 1 n ( y i − y ^ i ) 2 = ( X W − y ^ ) 2 \begin{aligned} \mathcal{L}(w_1, w_2, ...) & = \sum_{i=1}^n(y_i - \hat{y}_i)^2 \\ & = (XW - \hat{y})^2 \end{aligned} L(w1,w2,...)=i=1∑n(yi−y^i)2=(XW−y^)2

其中， L \mathcal{L} L 表示损失函数， w 1 , w 2 , . . . w_1, w_2, ... w1,w2,... 是模型的参数， n n n 是样本数量， y i y_i yi 是第 i i i 个样本的真实值， y ^ i \hat{y}_i y^i 是第 i i i 个样本的预测值。损失函数计算了所有样本真实值与预测值之差的平方和。

在矩阵形式中， X X X 是一个 n × m n \times m n×m 的矩阵，其中 n n n 是样本数量， m m m 是特征数量。每一行表示一个样本的特征值。 W W W 是一个 m × 1 m \times 1 m×1 的列向量，表示模型的参数。 y ^ \hat{y} y^ 是一个 n × 1 n \times 1 n×1 的列向量，表示所有样本的预测值。 ( X W − y ^ ) 2 (XW - \hat{y})^2 (XW−y^)2 表示所有样本真实值与预测值之差的平方和。

最小二乘法损失函数是一个关于 W W W 的二次函数，可以通过对其求导并令导数为零来求解最小值。在这个过程中， X X X$ 和 \hat{y}$ 都是已知的。

求导：

2 ( X W − y ^ ) × X = 0 (1) \rm 2(XW - \hat{y}) \times X = 0 \tag{1} 2(XW−y^)×X=0(1)

2 ( X W − y ^ ) × X = 0 X T (2) \rm 2(XW - \hat{y}) \times X = 0X^T \tag{2} 2(XW−y^)×X=0XT(2)

2 ( X W − y ^ ) × ( X X T ) = 0 X T (3) \rm 2(XW - \hat{y}) \times (XX^T) = 0X^T \tag{3} 2(XW−y^)×(XXT)=0XT(3)

2 ( X W − y ^ ) × ( X X T ) ( X X T ) − 1 = 0 X T ( X X T ) − 1 (4) \rm 2(XW - \hat{y}) \times (XX^T)(XX^T)^{-1} = 0X^T(XX^T)^{-1} \tag{4} 2(XW−y^)×(XXT)(XXT)−1=0XT(XXT)−1(4)

2 ( X W − y ^ ) = 0 (5) \rm 2(XW - \hat{y}) = 0 \tag{5} 2(XW−y^)=0(5)

X W = y (6) \rm XW = y \tag{6} XW=y(6)

X T X W = X T y ^ (7) \rm X^TXW = X^T\hat{y} \tag{7} XTXW=XTy^(7)

( X T X ) − 1 ( X T X ) × W = ( X T X ) − 1 × X T y ^ (8) \rm (X^TX)^{-1}(X^TX) \times W = (X^TX)^{-1} \times X^T\hat{y} \tag{8} (XTX)−1(XTX)×W=(XTX)−1×XTy^(8)

W = ( X T X ) − 1 × X T y ^ (9) \rm W = (X^TX)^{-1} \times X^T\hat{y} \tag{9} W=(XTX)−1×XTy^(9)

这些公式是线性回归的推导过程。它们描述了如何通过最小化误差平方和来找到最佳拟合直线。这些公式中的变量有：

X \rm X X 是一个矩阵，其中每一行代表一个数据点，每一列代表一个特征。 W \rm W W 是一个列向量，表示线性回归模型的权重。 y ^ \rm \hat{y} y^ 是一个列向量，表示每个数据点的真实值。 X W \rm XW XW 是一个列向量，表示每个数据点的预测值。

注意：

这里的 0 0 0 是一个零矩阵。它的维度与 X T X^T XT 相同，因此它是一个 n × m n \times m n×m 的矩阵，其中 n n n 是 X X X 的列数， m m m 是 X T X^T XT 的列数。 X X T \rm XX^T XXT 一个方阵，可以保证它有逆（ X \rm X X 不一定有逆！）

下面是对公式的解释说明：

这是一个线性回归的损失函数对系数矩阵 W \rm W W的梯度为0的方程，其中 X \rm X X是输入特征矩阵， y ^ \hat{y} y^是预测值向量， X \rm X X表示矩阵乘法。

在式(1)两侧同时乘以矩阵 X T X^T XT得到的结果，因为 0 X T = 0 \rm 0X^T=0 0XT=0，所以这与式（1）等价。

将式(2)中的 X T \rm X^T XT左乘到式(1)中的 X \rm X X上，得到的结果是将梯度方程左乘以 X X T \rm XX^T XXT，然后右乘以 X T \rm X^T XT的结果。

将式(3)中的 ( X X T ) − 1 \rm (XX^T)^{-1} (XXT)−1左右乘到式(3)中，则得到将梯度方程左乘以 X X T \rm XX^T XXT的逆矩阵，然后右乘以 X T \rm X^T XT的结果。这个式子可以用来计算最小二乘法的系数矩阵 W \rm W W。

梯度为0时的方程简化为 X W = y ^ \rm XW=\hat{y} XW=y^，即模型预测值等于真实标签。

这是简单的线性回归方程，其中 W \rm W W是要学习的系数矩阵， X \rm X X是输入特征矩阵， y \rm y y是真实标签。

将上式左乘以 X T \rm X^T XT，得到 X T X W = X T y ^ \rm X^TXW=X^T\hat{y} XTXW=XTy^的形式。这个式子可以用来计算最小二乘法的系数矩阵 W \rm W W。

将上式左右乘以 ( X T X ) − 1 \rm (X^TX)^{-1} (XTX)−1，得到 W = ( X T X ) − 1 X T y ^ \rm W=(X^TX)^{-1}X^T\hat{y} W=(XTX)−1XTy^的形式，这是最小二乘法的系数矩阵公式。

这是最小二乘法的系数矩阵公式， W \rm W W是要学习的系数矩阵， ( X T X ) − 1 \rm (X^TX)^{-1} (XTX)−1是输入特征矩阵 X \rm X X经过转置和自己相乘的结果的逆矩阵， X T y ^ \rm X^T\hat{y} XTy^是输入特征矩阵 X \rm X X与真实标签 y \rm y y的乘积。

Q： X X T \rm XX^T XXT 和 X T X \rm X^TX XTX 都是方阵吗？

A： X X T \rm XX^T XXT 和 X T X \rm X^TX XTX 都是方阵。如果 X \rm X X 是一个 m × n m \times n m×n 的矩阵，那么 X X T \rm XX^T XXT 是一个 m × m m \times m m×m 的方阵，而 X T X \rm X^TX XTX 是一个 n × n n \times n n×n 的方阵。它们都有逆（这里的前提是它们的行列式不为零）

Q：方阵都有逆矩阵吗？

A：不是所有的方阵都有逆矩阵。只有当一个方阵的行列式不为零时，它才有逆矩阵。如果一个方阵的行列式为零，那么它是奇异矩阵，没有逆矩阵。

Q：行列式怎么求？

A：行列式是一个标量，它可以用来衡量一个方阵的可逆性。对于一个 n × n n \times n n×n 的方阵 A，它的行列式记为 det(A) 或 |A|。

对于一个 2 × 2 2 \times 2 2×2 的方阵，它的行列式可以直接计算：

∣ a b c d ∣ = a d − b c \begin{vmatrix} a & b \\ c & d \end{vmatrix} = ad - bc acbd =ad−bc

对于一个 n × n n \times n n×n 的方阵 ( n > 2 n > 2 n>2)，它的行列式可以通过递归地计算子矩阵的行列式来求得。这种方法称为拉普拉斯展开。例如，对于一个 3 × 3 3 \times 3 3×3 的方阵，它的行列式可以通过以下公式计算：

∣ a b c d e f g h i ∣ = a ∣ e f h i ∣ − b ∣ d f g i ∣ + c ∣ d e g h ∣ \begin{vmatrix} a & b & c \\ d & e & f \\ g & h & i \end{vmatrix} = a \begin{vmatrix} e & f \\ h & i \end{vmatrix} - b \begin{vmatrix} d & f \\ g & i \end{vmatrix} + c \begin{vmatrix} d & e \\ g & h \end{vmatrix} adgbehcfi =a ehfi −b dgfi +c dgeh

除了拉普拉斯展开，还有一些其他的方法可以用来计算行列式，例如高斯消元法和三角分解法。

推导方式二：

把该损失函数转换成矩阵写法：

最小二乘法损失函数是一个关于 W W W 的二次函数，可以通过对其求导并令导数为零来求解最小值。在这个过程中， X X X$ 和 \hat{y}$ 都是已知的。

把损失函数分开书写：

( X W − y ^ ) 2 = ( X W − y ^ ) T ( X W − y ^ ) \rm (XW - \hat{y})^2 = (XW - \hat{y})^T(XW-\hat{y}) (XW−y^)2=(XW−y^)T(XW−y^)

对上式进行求导。

∂ ∂ W [ ( X W − y ^ ) T ( X W − y ^ ) ] = ∂ ∂ W [ ( W T X T − y ^ T ) ( X W − y ^ ) ] = ∂ ∂ W ( W T X T X W − W T X T y ^ − y ^ T X W + y ^ T y ^ ) = X T X W + X T X W − X T y ^ − X T y ^ \begin{aligned} \rm \frac{\partial}{\partial{W}}[(XW-\hat{y})^T(XW-\hat{y})] & = \rm \frac{\partial}{\partial{W}}[(W^TX^T - \hat{y}^T)(XW - \hat{y})] \\ & = \rm \frac{\partial}{\partial{W}}(W^TX^TXW - W^TX^T\hat{y} - \hat{y}^TXW + \hat{y}^T\hat{y}) \\ & = \rm X^TXW + X^TXW - X^T\hat{y} - X^T\hat{y} \end{aligned} ∂W∂[(XW−y^)T(XW−y^)]=∂W∂[(WTXT−y^T)(XW−y^)]=∂W∂(WTXTXW−WTXTy^−y^TXW+y^Ty^)=XTXW+XTXW−XTy^−XTy^

因为要求导函数的极小值，所以把上式求导结果设为0，经过化解，得结果为：

X T X W = X T y ^ \rm X^TXW = X^T\hat{y} XTXW=XTy^

经化解为：

W = ( X T X ) − 1 X T y ^ \rm W = (X^TX)^{-1}X^T\hat{y} W=(XTX)−1XTy^

补充：需要用到的矩阵求导公式如下。

∂ ∂ X X T A = A \frac{\partial}{\partial{X}}X^TA = A ∂X∂XTA=A

∂ ∂ X A X = A T \frac{\partial}{\partial{X}}AX = A^T ∂X∂AX=AT

总之，需要记住正规方程的公式表达为：

W = ( X T X ) − 1 X T y W = (X^TX)^{-1}X^Ty W=(XTX)−1XTy

5.2 梯度下降（Gradient Descent）

5.2.1 什么是梯度下降

梯度下降法的基本思想可以类比为一个下山的过程。

假设这样一个场景：一个人被困在山上，需要从山上下来（即找到山的最低点，也就是山谷）。但此时山上的浓雾很大，导致可视度很低。因此，下山的路径就无法确定，他必须利用自己周围的信息去找到下山的路径。这个时候，他就可以利用梯度下降算法来帮助自己下山。

具体来说就是，以他当前的所处的位置为基准，寻找这个位置最陡峭的地方，然后朝着山的高度下降的地方走（同理，如果我们的目标是上山，也就是爬到山顶，那么此时应该是朝着最陡峭的方向往上走）。然后每走一段距离，都反复采用同一个方法，最后就能成功的抵达山谷。

梯度下降的基本过程就和下山的场景很类似。

首先，我们有一个可微分的函数。这个函数就代表着一座山。我们的目标就是找到这个函数的最小值，也就是山底。

根据之前的场景假设，最快的下山的方式就找到当前位置最陡峭的方向，然后沿着此方向向下走。对应到函数中，就是找到给定点的梯度，然后朝着梯度相反的方向，就能让函数值下降的最快。因为梯度的方向就是函数值变化最快的方向。所以，我们重复利用这个方法，反复求取梯度，最后就能到达局部的最小值，这就类似于我们下山的过程。而求取梯度就确定了最陡峭的方向，也就是场景中测量方向的手段。

Q1：为什么是梯度相反的方向？

A1：梯度是一个向量，指向函数值增长最快的方向。因此，如果我们想要让函数值下降最快，就应该朝着梯度相反的方向移动。梯度的方向指向函数值增加最快的方向，而梯度的反方向则指向函数值减小最快的方向。所以，当我们沿着梯度的反方向走时，函数值在减小，也就是我们在下山。

举个例子，假设你站在一座山上，你想要尽快下山。你可以感受到你周围哪个方向最陡峭，然后朝着那个方向走。这个方向就是梯度的方向。但是，如果你想要尽快下山，那么你应该朝着梯度相反的方向走，也就是山的高度下降的方向。

Q2：对于一个 U 形曲线，它右侧的点的梯度是上山最快的，所以我们取梯度的反方向以尽快地下山。那么对于它左侧的点，梯度是负的吧，再取反岂不是上山？

A2：首先需要澄清一些误解：在机器学习中，梯度指向的方向并不一定总是上山或下山的方向，而是函数值变化最快的方向。对于一个 U 形曲线（即凸函数），它的左侧和右侧的点的梯度都指向函数值变化最快的方向，但是左侧的梯度是负的，右侧的梯度是正的。

在梯度下降算法中，我们希望找到函数的极小值点，因此需要朝着梯度的反方向走，这样才能越过山峰、降低函数值。对于 U 形曲线的右侧点，其梯度是正的，所以取反方向就是负梯度方向，可以朝着函数极小值点的方向下降；而对于左侧点，虽然梯度是负的，但是它也是函数值变化最快的方向，也就是说，朝着梯度的反方向就是下山的方向，因此需要取相反方向的梯度来下降。

简要来说，针对一个 U 形曲线，对于任意一点，朝着梯度的反方向都是下降的方向，因为这样才能够逐渐接近函数的极小值点。

Q3：这个结论对于任意的损失函数都适用吗？

A3：这个结论并不适用于任意的函数。它只适用于那些具有单峰或单谷的函数，也就是说，函数只有一个局部最大值或局部最小值。对于那些具有多个峰和谷的函数，沿着梯度的反方向走可能会使我们陷入局部最优解，而无法到达全局最优解。

Q4：在机器学习和深度学习中，这里的函数是损失函数吗？

A4：在机器学习和深度学习中，我们通常使用梯度下降法来最小化损失函数。损失函数衡量模型预测值与真实值之间的差异，我们希望通过最小化损失函数来训练模型。所以，在这种情况下，这里的函数是损失函数。

5.2.2 梯度的概念

梯度是微积分中一个很重要的概念。

在单变量的函数中，梯度其实就是函数的微分，代表着函数在某个给定点的切线的斜率。

在多变量函数中，梯度是一个向量，向量有方向，梯度的方向指出了函数在给定点的上升最快的方向，同时代表了函数在该点的局部变化率及其方向的信息。具体来说，梯度是由各个偏导数组成的向量，每个偏导数代表了函数沿着相应坐标轴方向的变化率，梯度的方向是函数在该点变化率增加最快的方向，其大小即为变化率的值。

Q1：什么是单变量函数，什么是多变量函数？

A1：

单变量的函数： L ( w ) \mathcal{L}(w) L(w)，其中 w w w 是一个单变量，它是一个实数。它表示模型只有一个参数。多变量的函数： L ( W ) \mathcal{L}(W) L(W)，其中 W = { w 1 , w 2 , . . . } W = \{ w_1, w_2, ... \} W={w1,w2,...} 是一个向量或矩阵，表示模型有多个参数。

Q2：梯度的方向是函数在给定点上升最快的方向。这句话有错误吗？

A2：这句话的表述几乎正确，但是需要进行一些澄清和修正。

首先，对于一个标量函数 f ( x ) f(x) f(x)，它在某个点 x x x 的梯度 ∇ f ( x ) \nabla f(x) ∇f(x) 是一个向量，指出了函数值增加最快的方向。因此，可以说梯度的方向是函数在给定点上升最快的方向。

然而，在更一般的情况下，梯度的方向并不一定是函数值增加最快的方向。特别地，当函数的取值不是标量而是向量时，例如 f ( x ) = y f(\mathbf{x})=\mathbf{y} f(x)=y，则梯度 ∇ f ( x ) \nabla f(\mathbf{x}) ∇f(x) 的方向是函数变化最快的方向，但这个方向并不一定与函数值增加最快的方向相同。

此外，只有在凸函数的情况下，梯度的方向才确保提供了函数值上升最快的方向。在非凸函数的情况下，存在许多可能的方向，其中一些可能会导致更快的函数值上升。

总之，可以说梯度的方向是在标量函数的情况下函数值上升最快的方向，或者在更一般的情况下，是函数变化最快的方向。

Q3：梯度方向是函数变化最快的方向，那么在进行梯度下降下山时，需要判断梯度的正负吗？

A3：在进行梯度下降时，需要判断梯度的正负。

具体来说，对于一个可微函数 f ( x ) f(x) f(x)，在某一点 x 0 x_0 x0 处计算出它的梯度 ∇ f ( x 0 ) \nabla f(x_0) ∇f(x0)。根据梯度的定义， ∇ f ( x 0 ) \nabla f(x_0) ∇f(x0) 是一个向量，它的方向指向函数在 x 0 x_0 x0 处变化最快的方向，大小表示函数变化的速率。因此，为了让函数最快地下降，我们需要朝着梯度的反方向移动，即 − ∇ f ( x 0 ) - \nabla f(x_0) −∇f(x0) 的方向。

然而，仅仅知道梯度的方向还不够，我们还需要确定前进的步长，即学习率 η \eta η。在每一次迭代中，我们将当前位置沿着梯度的反方向移动一个步长 η \eta η，得到新的位置 x 1 = x 0 − η ∇ f ( x 0 ) x_1 = x_0 - \eta \nabla f(x_0) x1=x0−η∇f(x0)。这一步中，如果我们选择了错误的符号来改变梯度的方向，即误将梯度方向的正负弄反了，那么我们可能会朝着函数增加的方向移动，导致无法收敛甚至发散。

因此，在进行梯度下降时，需要利用梯度的正负信息来决定前进的方向。通常我们会在梯度向量中取反，得到 − ∇ f ( x 0 ) - \nabla f(x_0) −∇f(x0) 的方向作为下降的方向。

Q4：那么在进行梯度下降下山时，梯度一直是负的吗？也就是负数？

A4：在梯度下降算法中，梯度方向是函数在当前点的变化率最大的方向，因此梯度方向通常指向函数值下降的方向。

在目标函数存在全局最优解的情况下，梯度下降算法可以通过不断朝着梯度方向移动来逐步接近最优解。在每一次迭代中，梯度下降算法会计算当前位置的梯度，并将参数朝着负梯度的方向更新，以使得函数值不断减小。

因此，在进行梯度下降时：

如果目标函数是凸函数且学习率合适，则梯度方向一直是负的（即负数），因为这意味着函数值会不断减小，从而逐步接近最优解。但是，如果目标函数存在多个局部最优解或者非凸性，可能会出现梯度方向不一定一直是负的情况。

总之，在梯度下降算法中，梯度方向指向函数值下降的方向，并且通常是负数，但也可能存在例外情况。

这也就说明了为什么我们需要千方百计的求取梯度。我们需要到达山底，就需要在每一步观测到此时最陡峭的地方，梯度就恰巧告诉了我们这个方向。梯度的方向是函数在给定点上升最快的方向（函数变化最快的方向），那么梯度的反方向就是函数在给定点下降最快的方向，这正是我们所需要的。所以我们一般只要沿着梯度的反方向一直走，就能走到局部的最低点。

5.2.3 梯度下降举例

5.2.3.1 单变量函数 L ( W ) \mathcal{L}(W) L(W) 的梯度下降

我们假设有一个单变量的函数：

L ( W ) = w 2 \mathcal{L}(W) = w^2 L(W)=w2

函数的微分：

L ′ ( W ) = 2 w \mathcal{L}'(W) = 2w L′(W)=2w

初始化模型参数，起点为： w 0 = 1 w^0 = 1 w0=1。

表示在梯度下降算法的迭代过程中， W W W 的初始值被设定为 1 1 1。这意味着，在第一次迭代之前， w w w 的值为 1 1 1。在梯度下降算法中，选择一个合适的初始值是很重要的，因为它会影响到算法收敛的速度和最终结果。学习率： α = 0.4 \alpha = 0.4 α=0.4

学习率 α \alpha α 是梯度下降算法中的一个重要参数，它控制着每一步迭代时 W W W 值的更新幅度。在我们给出的例子中，学习率被设定为 0.4 0.4 0.4。

在梯度下降算法中，每一步迭代时，模型参数 W W W 的值会根据如下公式进行更新：

W t + 1 = W t − α × L ′ ( W t ) W^{t+1} = W^t - \alpha \times \mathcal{L}'(W^t) Wt+1=Wt−α×L′(Wt)

其中， L ′ ( W t ) \mathcal{L}'(W^t) L′(Wt) 是损失函数对 W W W 的导数，表示当 W W W 改变时，损失函数值的变化率。

注意：

学习率过大会导致算法不稳定，可能会使损失函数的值在迭代过程中出现震荡甚至发散。学习率过小会导致算法收敛速度过慢，需要更多的迭代次数才能达到最优解。

我们开始进行梯度下降的迭代计算过程：

W 0 = 1 (1) W^0 = 1 \tag{1} W0=1(1)

W 1 = W 0 − α × L ′ ( w 0 ) = 1 − 0.4 × 2 = 0.2 (2) \begin{aligned} W^1 & = W^0 - \alpha \times \mathcal{L}'(w^0) \\ & = 1 - 0.4 \times 2 \\ & = 0.2 \tag{2} \end{aligned} W1=W0−α×L′(w0)=1−0.4×2=0.2(2)

w 2 = w 1 − α × L ′ ( w 1 ) = 0.2 − 0.4 × 2 × 0.2 = 0.04 (3) \begin{aligned} w^2 & = w^1 - \alpha \times \mathcal{L}'(w^1) \\ & = 0.2 - 0.4 \times 2 \times 0.2 \\ & = 0.04 \tag{3} \end{aligned} w2=w1−α×L′(w1)=0.2−0.4×2×0.2=0.04(3)

w 3 = w 2 − α × L ′ ( w 2 ) = 0.04 − 0.4 × 2 × 0.04 = 0.008 (4) \begin{aligned} w^3 & = w^2 - \alpha \times \mathcal{L}'(w^2) \\ & = 0.04 - 0.4 \times 2 \times 0.04 \\ & = 0.008 \tag{4} \end{aligned} w3=w2−α×L′(w2)=0.04−0.4×2×0.04=0.008(4)

w 4 = w 3 − α × L ′ ( w 3 ) = 0.008 − 0.4 × 2 × 0.008 = 0.0016 (5) \begin{aligned} w^4 & = w^3 - \alpha \times \mathcal{L}'(w^3) \\ & = 0.008 - 0.4 \times 2 \times 0.008 \\ & = 0.0016 \tag{5} \end{aligned} w4=w3−α×L′(w3)=0.008−0.4×2×0.008=0.0016(5)

其中：

W W W 是一个单变量 w w w，它是一个实数。它表示模型只有一个参数。

L ( W ) \mathcal{L}(W) L(W)：这是一个损失函数，用来衡量模型的预测值与真实值之间的差距。在梯度下降算法中，我们希望通过调整 W W W 的值来最小化损失函数的值。

L ′ ( W ) \mathcal{L}'(W) L′(W)：这是损失函数 L ( W ) \mathcal{L}(W) L(W) 对 W W W 的导数。它表示当 W W W 改变时，损失函数值的变化率。

α \alpha α：这是学习率，它控制着梯度下降算法每一步迭代时 W W W 值的更新幅度。学习率过大会导致算法不稳定，而学习率过小会导致算法收敛速度过慢。

w t w^t wt：这表示在第 t t t 次迭代后， W W W 的值（也就是 w w w 的值）。

如下图所示，经过四次的运算，也就是走了四步，基本就抵达了函数的最低点，也就是山底。

5.2.3.2 多变量函数 L ( W ) \mathcal{L}(W) L(W) 的梯度下降

我们假设有一个目标函数：

L ( W ) = w 1 2 + w 2 2 \mathcal{L}(W) = w_1^2 + w_2^2 L(W)=w12+w22

现在要通过梯度下降法计算这个函数的最小值。我们通过观察就能发现最小值其实就是 ( 0 , 0 ) (0, 0) (0,0) 点。但是接下来，我们会从梯度下降算法开始一步步计算到这个最小值。

假设初始的起点为： W 0 = ( 1 , 3 ) W^0 = (1, 3) W0=(1,3)初始的学习率为： α = 0.1 \alpha = 0.1 α=0.1

函数的梯度为：

∇ L ( W ) = < 2 w 1 , 2 w 2 > \nabla{\mathcal{L}(W)} = <2w_1, 2w_2> ∇L(W)=<2w1,2w2>

注意：梯度是一个向量，它的每个分量表示目标函数在该维度上的偏导数。这样写是正确的，表明是一个向量。

符号说明：

L ( W ) \mathcal{L}(W) L(W)：这是目标函数，它表示我们想要最小化的函数。在这个例子中，它是一个二次函数，表示为 w 1 2 + w 2 2 w_1^2 + w_2^2 w12+w22。 W W W：这是一个向量，表示目标函数的自变量。在这个例子中，它有两个分量 w 1 w_1 w1 和 w 2 w_2 w2。 ∇ L ( W ) \nabla{\mathcal{L}(W)} ∇L(W)：这是目标函数的梯度，它是一个向量，它的每个分量表示目标函数在该维度上的偏导数。在这个例子中，梯度为 < 2 w 1 , 2 w 2 > <2w_1, 2w_2> <2w1,2w2>。 α \alpha α：这是学习率，它控制梯度下降算法每一步更新参数的幅度。在这个例子中，学习率为 0.1 0.1 0.1。 W t W^t Wt：这表示梯度下降算法在第 t t t 次迭代时 W W W 的值。

Q：为什么 L ( W ) = w 1 2 + w 2 2 \mathcal{L}(W) = w_1^2 + w_2^2 L(W)=w12+w22求导得到的是 ∇ L ( W ) = < 2 w 1 , 2 w 2 > \nabla{\mathcal{L}(W)} = <2w_1, 2w_2> ∇L(W)=<2w1,2w2>，而不是 ∇ L ( W ) = 2 w 1 + 2 w 2 \nabla{\mathcal{L}(W)} = 2w_1+2w_2 ∇L(W)=2w1+2w2？

A：因为 ∇ L ( W ) \nabla{\mathcal{L}(W)} ∇L(W) 表示目标函数 L ( W ) \mathcal{L}(W) L(W) 的梯度，它是一个向量，它的每个分量表示目标函数在该维度上的偏导数。对于目标函数 L ( W ) = w 1 2 + w 2 2 \mathcal{L}(W) = w_1^2 + w_2^2 L(W)=w12+w22，我们可以分别对 w 1 w_1 w1 和 w 2 w_2 w2 求偏导数：

∂ L ∂ w 1 = 2 w 1 \frac{\partial \mathcal{L}}{\partial w_1} = 2w_1 ∂w1∂L=2w1

∂ L ∂ w 2 = 2 w 2 \frac{\partial \mathcal{L}}{\partial w_2} = 2w_2 ∂w2∂L=2w2

因此，目标函数的梯度为：

∇ L ( W ) = < ∂ L ∂ w 1 , ∂ L ∂ w 2 > = < 2 w 1 , 2 w 2 > \nabla{\mathcal{L}(W)} = <\frac{\partial \mathcal{L}}{\partial w_1}, \frac{\partial \mathcal{L}}{\partial{w_2}}> = <2w_1, 2w_2> ∇L(W)=<∂w1∂L,∂w2∂L>=<2w1,2w2>

梯度是一个向量，它的每个分量表示目标函数在该维度上的偏导数。所以写成 ∇ L ( W ) = 2 w 1 + 2 w 2 \nabla{\mathcal{L}(W)} = 2w_1 + 2w_2 ∇L(W)=2w1+2w2 是不正确的。

进行多次迭代：

W 0 = ( 1 , 3 ) (1) W^0 = (1, 3) \tag{1} W0=(1,3)(1)

W 1 = W 0 − α × ∇ L ( W 0 ) = ( 1 , 3 ) − 0.1 × ( 2 , 6 ) = ( 0.8 , 2.4 ) (2) \begin{aligned} W^1 & = W^0 - \alpha \times \nabla{\mathcal{L}(W^0)} \\ & = (1, 3) - 0.1 \times (2, 6) \\ & = (0.8, 2.4) \end{aligned} \tag{2} W1=W0−α×∇L(W0)=(1,3)−0.1×(2,6)=(0.8,2.4)(2)

W 2 = W 1 − α × ∇ L ( W 1 ) = ( 0.8 , 2.4 ) − 0.1 × ( 1.6 , 4.8 ) = ( 0.64 , 1.92 ) (3) \begin{aligned} W^2 & = W^1 - \alpha \times \nabla{\mathcal{L}(W^1)} \\ & = (0.8, 2.4) - 0.1 \times (1.6, 4.8) \\ & = (0.64, 1.92) \end{aligned} \tag{3} W2=W1−α×∇L(W1)=(0.8,2.4)−0.1×(1.6,4.8)=(0.64,1.92)(3)

W 3 = ( 0.512 , 1.536 ) (4) W^3 = (0.512, 1.536) \tag{4} W3=(0.512,1.536)(4)

W 4 = ( 0.4096 , 1.2288000000000001 ) (5) W^4 = (0.4096, 1.2288000000000001) \tag{5} W4=(0.4096,1.2288000000000001)(5)

. . . .\\ . \\ . ...

W 1 0 = ( 0.10737418240000003 , 0.32212254720000005 ) (6) W^10 = (0.10737418240000003, 0.32212254720000005) \tag{6} W10=(0.10737418240000003,0.32212254720000005)(6)

. . . .\\ . \\ . ...

W 5 0 = ( 1.1417981541647683 × 1 0 − 5 , 3.425394462494306 × 1 0 − 5 ) (7) W^50 = (1.1417981541647683 \times 10^{-5},3.425394462494306 \times 10^{-5}) \tag{7} W50=(1.1417981541647683×10−5,3.425394462494306×10−5)(7)

. . . .\\ . \\ . ...

W 1 00 = ( 1.6296287810675902 × 1 0 − 10 , 4.888886343202771 × 1 0 − 10 ) (8) W^100 = (1.6296287810675902 \times 10^{-10},4.888886343202771 \times 10^{-10}) \tag{8} W100=(1.6296287810675902×10−10,4.888886343202771×10−10)(8)

我们发现，已经基本靠近函数的最小值点。

5.2.4 梯度下降（Gradient Descent）公式

W i + 1 = W i − α ∂ L ( W ) ∂ w i W_{i + 1} = W_i - \alpha \frac{\partial{\mathcal{L}(W)}}{\partial{w_i}} Wi+1=Wi−α∂wi∂L(W)

5.2.4.1 学习率 α \alpha α

α \alpha α 在梯度下降算法中被称作为学习率或者步长，意味着我们可以通过 α \alpha α 来控制每一步走的距离，以保证不要步子跨的太大（其实就是不要走太快，错过了最低点）。同时也要保证不要走的太慢，导致太阳下山了，还没有走到山下（这里的意思就是不要需要非常多的迭代才能达到最优点，这样太耗费资源了）。

所以 α \alpha α 的选择在梯度下降法中往往是很重要的， α \alpha α 不能太大也不能太小：

学习率 α \alpha α 太小的话，可能导致迟迟走不到最低点（模型训练时间太长）学习率 α \alpha α 太大的话，会导致错过最低点（模型拟合效果不佳）

学习率是一个超参数（Hyper-Parameters），需要根据模型效果手工调整。

5.2.4.2 为什么要在梯度前面加一个负号（-）？

梯度前加一个负号，就意味着朝着梯度相反的方向前进。我们在前文提到，梯度的方向实际就是函数在此点上升最快的方向。而我们需要朝着下降最快的方向走，自然就是负的梯度的方向，所以此处需要加上负号。

我们通过两个图更好理解梯度下降的过程。

Q1：梯度下降法一定能找到最小值吗？

A1：没办法保证可以找到全局的最小值，但可以找到局部的最小值（也就是极小值）。我们可以看下面这张图加以理解。

从上图中我们可以看到，能不能达到全局最优点不仅仅取决于梯度的方向，还有学习率的大小。

总之，梯度下降法并不能保证找到全局最小值，但它可以找到局部最小值（也就是极小值）。这是因为梯度下降法每一步都朝着函数下降最快的方向移动，所以它最终会收敛到一个局部最小值。

如果目标函数是凸函数，那么梯度下降法可以保证找到全局最小值。如果目标函数不是凸函数，那么梯度下降法可能会收敛到一个局部最小值，而不是全局最小值。

Q2：什么是凸函数？

A2：凸函数是一类特殊的函数，它满足一些性质，使得它在优化问题中具有重要的应用。一个实值函数 f ( x ) f(x) f(x) 是凸函数，当且仅当它的定义域是一个凸集，并且对于定义域中的任意两点 x 1 x_1 x1 和 x 2 x_2 x2 以及任意实数 θ ∈ [ 0 , 1 ] \theta \in [0, 1] θ∈[0,1]，都有：

f ( θ x 1 + ( 1 − θ ) x 2 ) ≤ θ f ( x 1 ) + ( 1 − θ ) f ( x 2 ) f(\theta x_1 + (1-\theta) x_2) \leq \theta f(x_1) + (1-\theta) f(x_2) f(θx1+(1−θ)x2)≤θf(x1)+(1−θ)f(x2)

直观地说，这个性质表示凸函数的图像在任意两点之间的弦总是位于这两点之间的函数值之上。也就是说，凸函数的图像总是“向上凸”的。

凸函数具有一些重要的性质，例如它们的局部最小值也是全局最小值。这使得凸函数在优化问题中具有重要的应用。

Q3：那对于有很多参数的机器学习或深度学习模型而言，凸函数还存在吗？

A3：在机器学习和深度学习中，我们通常需要优化一个损失函数来训练模型。这个损失函数通常是关于模型参数的非凸函数。也就是说，在机器学习和深度学习中，损失函数通常不是凸函数。

由于损失函数通常不是凸函数，所以我们不能保证梯度下降法能够找到全局最小值。但在实践中，梯度下降法仍然是一种有效的优化算法，它能够找到一个较好的局部最小值。

所以有了梯度下降这样一个优化算法，回归就有了“自动学习”的能力。

优化（自动学习）的动态图演示：

Q4：损失函数和优化函数有什么区别和联系？

A4：损失函数和优化函数之间有着密切的联系。损失函数用于衡量模型所作出的预测离真实值（Ground Truth）之间的偏离程度，而优化函数则是用来最小化损失函数的算法。目标函数泛指任意可以被优化的函数，通常我们都会最小化目标函数，最常用的算法便是“梯度下降法”（Gradient Descent）。

W i + 1 = W i − α ∂ L ( W ) ∂ w i W_{i + 1} = W_i - \alpha \frac{\partial{\mathcal{L}(W)}}{\partial{w_i}} Wi+1=Wi−α∂wi∂L(W)

上面这个公式是梯度下降法的一个例子，它是一种优化算法。在这个公式中， W i W_i Wi表示第 i i i次迭代的参数值， α \alpha α表示学习率， L ( W ) \mathcal{L}(W) L(W)表示损失函数， ∂ L ( W ) ∂ w i \frac{\partial{\mathcal{L}(W)}}{\partial{w_i}} ∂wi∂L(W)表示损失函数关于参数 w i w_i wi的偏导数。这个公式描述了如何通过梯度下降法来更新参数以最小化损失函数。

简单来说：

损失函数衡量了模型预测的好坏优化函数则是用来改进模型以使其预测更准确。

[学习笔记] [机器学习] 4. [上] 线性回归（线性回归损失函数优化算法：正规方程梯度下降 Boston房价预测欠拟合和过拟合正则化岭回归模型保存与模型加载）

如果觉得《[学习笔记] [机器学习] 4. [上] 线性回归（线性回归损失函数优化算法：正规方》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。