失眠网 > 神经网络基本原理简明教程之基础知识之数学表达式

神经网络基本原理简明教程之基础知识之数学表达式

时间：2023-04-02 07:10:23

1.1 基本函数导数公式

1.1.1 基本函数及其导数

公式序号函数导数备注

1 y=c y′=0

2 y=xa y′=axa−1

3 y=logax y′=1xlogae=1xlna

4 y=lnx y′=1x

5 y=ax y′=axlna

6 y=ex y′=ex

7 y=e−x y′=−e−x

8 y=sin(x) y′=cos(x) 正弦函数

9 y=cos(x) y′=−sin(x) 余弦函数

10 y=tg(x) y′=sec2(x)=1cos2x 正切函数

11 y=ctg(x) y′=−csc2(x) 余切函数

12 y=arcsin(x) y′=11−x2√ 反正弦函数

13 y=arccos(x) y′=−11−x2√ 反余弦函数

14 y=arctan(x) y′=11+x2 反正切函数

15 y=arcctg(x) y′=−11+x2 反余切函数

16 y=sinh(x)=(ex−e−x)/2 y′=cosh(x) 双曲正弦函数

17 y=cosh(x)=(ex+e−x)/2 y′=sinh(x) 双曲余弦函数

18 y=tanh(x)=(ex−e−x)/(ex+e−x) y′=sech2(x)=1−tanh2(x) 双曲正切函数

19 y=coth(x)=(ex+e−x)/(ex−e−x) y′=−csch2(x) 双曲余切函数

20 y=sech(x)=2/(ex+e−x) y′=−sech(x)∗tanh(x) 双曲正割函数

21 y=csch(x)=2/(ex−e−x) y′=−csch(x)∗coth(x) 双曲余割函数

1.1.2 导数四则运算

[u(x)+v(x)]′=u′(x)+v′(x)(30)

[u(x)−v(x)]′=u′(x)−v′(x)(31)

[u(x)∗v(x)]′=u′(x)∗v(x)+v′(x)∗u(x)(32)

[u(x)v(x)]′=u′(x)v(x)−v′(x)u(x)v2(x)(33)

1.1.3 偏导数

如Z=f(x,y)，则Z对x的偏导可以理解为当y是个常数时，Z单独对x求导：

Z′x=f′x(x,y)=∂Z∂x(40)

则Z对y的偏导可以理解为当x是个常数时，Z单独对y求导：

Z′y=f′y(x,y)=∂Z∂y(41)

在二元函数中，偏导的何意义，就是对任意的y=y0的取值，在二元函数曲面上做一个y=y0切片，得到Z=f(x,y0)的曲线，这条曲线的一阶导数就是Z对x的偏导。对x=x0同样，就是Z对y的偏导。

1.1.4 复合函数求导（链式法则）

如果 y=f(u),u=g(x) 则：

y′x=f′(u)⋅u′(x)=y′u⋅u′x=dydu⋅dudx(50)

如果y=f(u),u=g(v),v=h(x) 则：

dydx=f′(u)⋅g′(v)⋅h′(x)=dydu⋅dudv⋅dvdx(51)

如Z=f(U,V)，通过中间变量U=g(x,y),V=h(x,y)成为x,y的复合函数Z=f[g(x,y),h(x,y)] 则：

∂Z∂x=∂Z∂U⋅∂U∂x+∂Z∂V⋅∂V∂x(52)

∂Z∂y=∂Z∂U⋅∂U∂y+∂Z∂V⋅∂V∂y

1.1.5 矩阵求导

如A,B,X都是矩阵，则：

B∂(AX)∂X=ATB(60)

B∂(XA)∂X=BAT(61)

∂(XTA)∂X=∂(ATX)∂X=A(62)

∂(ATXB)∂X=ABT(63)

∂(ATXTB)∂X=BAT,dXTAXdX=(A+AT)X(64)

dXTdX=I,dXdXT=I,dXTXdX=2X(65)

dudXT=(duTdX)T

duTvdx=duTdxv+dvTdxuT,duvTdx=dudxvT+udvTdx(66)

dABdX=dAdXB+AdBdX(67)

duTXvdx=uvT,duTXTXudX=2XuuT(68)

d[(Xu−v)T(Xu−v)]dX=2(Xu−v)uT(69)

1.1.6 标量对矩阵导数的定义

假定y是一个标量，X是一个N×M大小的矩阵，有y=f(X)， f是一个函数。我们来看df应该如何计算。

首先给出定义：

df=∑jM∑iN∂f∂xijdxij

下面我们引入矩阵迹的概念，所谓矩阵的迹，就是矩阵对角线元素之和。也就是说：

tr(X)=∑ixii

引入迹的概念后，我们来看上面的梯度计算是不是可以用迹来表达呢？

∂f∂X=(∂f∂x11∂f∂x12…∂f∂x1M ∂f∂x21∂f∂x22…∂f∂x2M ⋮⋮⋱⋮ ∂f∂xN1∂f∂xN2…∂f∂xNM)(90)

dX=(dx11dx12…dx1M dx21dx22…dx2M ⋮⋮⋱⋮ dxN1dxN2…dxNM)(91)

我们来看矩阵(90)的转置和矩阵(91)乘积的对角线元素

((∂f∂X)TdX)jj=∑iN∂f∂xijdxij((\frac{\partial f}{\partial X})^T dX){jj}=\sum_i^N \frac{\partial f}{\partial x{ij}} dx_{ij} ((∂X∂f)TdX)jj=i∑N∂xij∂fdxij

因此，

上式的最后一个等号是因为df是一个标量，标量的迹就等于其本身。

1.1.7 矩阵迹和导数的部分性质

这里将会给出部分矩阵的迹和导数的性质，作为后面推导过程的参考。性子急的同学可以姑且默认这是一些结论。

d(X+Y)=dX+dY(93)

d(XY)=(dX)Y+X(dY)(94)

dXT=(dX)T(95)

d(tr(X))=tr(dX)(96)

d(X⊙Y)=dX⊙Y+X⊙dY(97)

d(f(X))=f′(X)⊙dX(98)

tr(XY)=tr(YX)(99)

tr(AT(B⊙C))=tr((A⊙B)TC)(100)

以上各性质的证明方法类似，我们选取式(94)作为证明的示例：

Z=XY

则Z中的任意一项是

zij=∑kxikykj

dzij=∑kd(xikykj)

=∑k(dxik)ykj+∑kxik(dykj)

=dXij⋅Yij+Xij⋅dYij

从上式可见，dZ的每一项和(dX)Y+X(dY)的每一项都是相等的。因此，可以得出式(94)成立。

如果觉得《神经网络基本原理简明教程之基础知识之数学表达式》对你有帮助，请点赞、收藏，并留下你的观点哦！

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。