2. 神经网络的数学基础
WU Xiaokun 吴晓堃
xkun.wu [at] gmail
2021/03/15
张量。张量运算。 基于梯度的优化。 反向传播算法与链式求导。 实践:二维仿射变换,基本激活函数,ReLU合成法构造一般函数。
重点:张量、张量运算、三种基本激活函数、深度学习层间运算的一般形式;
难点:张量运算的几何解释、基于梯度的优化、反向传播算法、ReLU合成法、一致逼近理论。
数据的容器。0D、1D、2D张量又分别成为标量、向量、矩阵。
数据不同表示之间的变换函数。
\underline{output} = \textcolor{blue}{activate}(\underline{GT}) \underline{GT} = \textbf{W} \textcolor{blue}{*} \underline{input} + \textbf{b}
\underline{GT} = \textbf{W} \textcolor{blue}{*} \underline{input} + \textbf{b}
\begin{bmatrix} 1 & 0 & 0 \\ 0 & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}, \begin{bmatrix} 1 & 0 & t_x \\ 0 & 1 & t_y \\ 0 & 0 & 1 \end{bmatrix}, \begin{bmatrix} s_x & 0 & 0 \\ 0 & s_y & 0 \\ 0 & 0 & 1 \end{bmatrix}, \begin{bmatrix} \cos(\theta) & \sin(\theta) & 0 \\ -\sin(\theta) & \cos(\theta) & 0 \\ 0 & 0 & 1 \end{bmatrix}, \begin{bmatrix} 1 & e_x & 0 \\ e_y & 1 & 0 \\ 0 & 0 & 1 \end{bmatrix}
首先研究低维空间,归纳出规律,然后将规律泛化到高维。
只要模型的参数足够多,就能捕捉到原始数据中所有的映射关系。想象“\Omega路径”。
因此也可称为:分层表示学习、层级表示学习、深度可微模型、链式几何变换。
ReLU,Sigmoid,Tanh。
提供非线性。
\sum \textcolor{blue}{relu}(\textbf{W} \textcolor{blue}{*} \underline{input} + \textbf{b})
In approximation theory, both and networks are known to at an .
构造法:
Objective: \argmin_{W, b} J,
with: J = \lVert \overline{y} - y \rVert, \overline{y} = \sum \textcolor{blue}{relu}(\textbf{W} \textcolor{blue}{*} x + \textbf{b})
W_1 = W_0 - \nabla J * s
将链式法则应用于神经网络梯度值的计算,得到的算法叫作反向传播算法。