Hessian矩阵与函数凸性

  • 黑塞矩阵的定义:对于任意多元函数\(y = f(x_{1}, x_{2}, \cdots, x_{n})\),若其足够光滑,沿\(l=[l_{1}, l_{2}, \cdots, l_{n}]\)方向的二阶方向导数存在,令\(H_{f}=\begin{bmatrix}f_{x_{1}x_{1}}'' & f_{x_{1}x_{2}}'' & \cdots & f_{x_{1}x_{n}}''\\f_{x_{2}x_{1}}'' & f_{x_{2}x_{2}}'' & \cdots & f_{x_{2}x_{n}}''\\\vdots & \vdots & \ddots & \vdots\\f_{x_{n}x_{1}}'' & f_{x_{n}x_{2}}'' & \cdots & f_{x_{n}x_{n}}''\end{bmatrix}\), 该矩阵称作Hessian矩阵 。
  • 它是由函数的二阶偏导数组成的方阵,本身没有实际意义,只有作用于一个具体变量值时才有意义,且为实对称阵
  • 与函数凸性的关系
    • \(H_{f}(x)\)为半正定矩阵,则对于任意的求导方向\(l=[l_{1}, l_{2}, \cdots, l_{n}]\),二阶导数\(f_{l}''(x)=lH_{f}(x)l^{T} \geq 0\)恒成立,此时函数\(y = f(x_{1}, x_{2}, \cdots, x_{n})\)为凸函数;
    • \(H_{f}(x)\)为半负定矩阵,则函数为凹函数;
    • \(H_{f}(x)\)为正定矩阵,则函数为严格凸函数;
    • \(H_{f}(x)\)为负定矩阵,则函数为严格凹函数 。

凸集分离定理

  • 定义:指在很弱的条件下,两个不相交的凸集总可用超平面分离。 ## 凸函数成立条件
  1. 一阶条件 如果函数 \(f\) 是可微的,则 \(f\) 是凸函数的充分必要条件是: \[ f(y) \geq f(x) + \nabla f(x)^\top (y - x), \quad \forall x, y \in C. \]
    • 几何意义:函数图像在任意点 \(x\) 处的切线位于函数图像的下方或重合。
  2. 二阶条件 如果函数 \(f\) 是二阶可微的,则 \(f\) 是凸函数的充分必要条件是: \[ \nabla^2 f(x) \succeq 0, \quad \forall x \in C. \]
    • 其中,\(\nabla^2 f(x)\)\(f\) 的 Hessian 矩阵,\(\succeq 0\) 表示 Hessian 矩阵是半正定的。
    • 几何意义:函数图像在任意点 \(x\) 处的曲率是非负的
  3. Jensen 不等式 如果函数 \(f\) 满足 Jensen 不等式,即对于任意 \(x_1, x_2, \dots, x_n \in C\) 和任意 \(\lambda_1, \lambda_2, \dots, \lambda_n \geq 0\)\(\sum_{i=1}^n \lambda_i = 1\),有: \[ f\left( \sum_{i=1}^n \lambda_i x_i \right) \leq \sum_{i=1}^n \lambda_i f(x_i), \]\(f\) 是凸函数。 ## 散度
  4. 散度定义
    • 对于以\(n\)维向量\(\boldsymbol{x}=[x_1,x_2,\cdots,x_n]\)为自变量,将其映射为同维向量\(\boldsymbol{y} = [y_1,y_2,\cdots,y_n]\) (即\(\boldsymbol{y}=F(\boldsymbol{x})\) )的函数\(F\) ,其散度\(\mathrm{div}F=\frac{\partial F_1}{\partial x_1}+\frac{\partial F_2}{\partial x_2}+\cdots+\frac{\partial F_n}{\partial x_n}=\frac{\partial y_1}{\partial x_1}+\frac{\partial y_2}{\partial x_2}+\cdots+\frac{\partial y_n}{\partial x_n}\)
    • 借助汉密尔顿算子\(\nabla = [\partial / \partial x_1, \partial / \partial x_2, \cdots, \partial / \partial x_n]\) ,可表示为\(\mathrm{div}F = \langle\nabla, F\rangle=\langle\nabla, \boldsymbol{y}\rangle\)
  5. 广义散度 数据驱动的人工智能方法中,常需建立矢量空间与标量区间对应关系,广义散度是实现这类对应关系的函数映射。
  6. 散度与梯度、拉普拉斯算子相关性质
    • 对于多变量单值函数\(f\) ,其梯度\(\nabla f\) 是分量数与自变量个数相等的向量,\(\mathrm{div}\nabla f=\frac{\partial^2 f}{\partial x_1^2}+\frac{\partial^2 f}{\partial x_2^2}+\cdots+\frac{\partial^2 f}{\partial x_n^2}\) 。 定义拉普拉斯算子\(\nabla^2 = [\partial^2 / \partial x_1^2, \partial^2 / \partial x_2^2, \cdots, \partial^2 / \partial x_n^2]\) ,则\(\mathrm{div}\nabla f=\langle\nabla, \nabla f\rangle=\nabla^2 f\)
    • 性质:
      • 对于输出为常向量的函数\(C\)\(\langle\nabla, C\rangle = 0\)
      • \(k\)为常数,\(\langle\nabla, kF\rangle = k\langle\nabla, F\rangle\)
      • 对于同类型函数\(F\)\(G\)\(\langle\nabla, F\pm G\rangle=\langle\nabla, F\rangle\pm\langle\nabla, G\rangle\)
      • \(f\)\(F\)输入变量相同,\(f\)为单值函数,则\(\langle\nabla, fF\rangle = f\langle\nabla, F\rangle+\langle F, \nabla f\rangle\) ## 密切圆与曲率
  7. 导数与切线
    • 对于函数\(y = f(x)\),在定义域内一点\(x_0\),取周围点\(x\),割线斜率为\(\frac{\Delta y}{\Delta x}=\frac{f(x)-f(x_0)}{x - x_0}\) 。当\(x\)无限靠近\(x_0\)时,此比值为\(x_0\)点导数\(f^\prime(x_0)\),此时割线变为切线,切线斜率\(\tan\alpha = y^\prime\)\(\alpha\)为切向角。
    • 由微分与导数关系可得\(d\alpha=\frac{y^{\prime\prime}}{1 + y^{\prime 2}}dx\) ,弧微分\(ds = \sqrt{1 + y^{\prime 2}}dx\) ,其中\(s^\prime(x)=\sqrt{1 + y^{\prime 2}}\)
  8. 曲率
    • 定义:对于足够平滑的函数曲线\(y = f(x)\) ,点\((x_0,f(x_0))\)\((x_0+\Delta x,f(x_0+\Delta x))\)弧长为\(\Delta s\) ,切线角变化为\(\Delta\alpha\)\(x_0\)处曲率\(K_f(x_0)=\lim\limits_{\Delta s \to 0}|\frac{\Delta\alpha}{\Delta s}| = |\frac{d\alpha}{ds}|\)
    • 公式:\(K_f(x_0)=\frac{|f^{\prime\prime}(x_0)|}{(1 + (f^\prime(x_0))^2)^{\frac{3}{2}}}\)
  9. 密切圆 密切圆也叫曲率圆,其半径称曲率半径
    • 在定义区间内取\(x_0\)左右邻接点\(x_0 - \delta\)\(x_0 + \delta\) ,由\(f(x_0 - \delta)\)\(f(x_0)\)\(f(x_0 + \delta)\)三点确定一个圆,当\(\delta \to 0\) ,得到函数\(y = f(x)\)\(x_0\)处的密切圆,是对曲线在该点的最佳圆近似。
    • 性质:
      • 曲线平坦处密切圆半径大,弯曲处半径小。
      • \(x_0\)处密切圆半径等于曲率的倒数\(\frac{1}{K_f(x_0)}\)
    • \(x_0\)取不同值时密切圆圆心轨迹是渐屈线;函数\(y = f(x)\)是密切圆的圆心轨迹的渐伸线。

激活函数

  1. Sigmoid 函数:\[f_{sig}(x)=\frac{1}{1+e^{-x}}\]

[[Sigmoid函数.png]] 2. tanh 激活函数:\[tanh(x)=\frac{e^x-e^{-x}}{e^x+e^{-x}}\]

[[Tanh函数.png]] 3. Relu 激活函数:\[Relu(x)=max(0,x)\]

[[Relu函数.png]]

函数的函数泛函

  • 泛函:==以函数为自变量==的函数
  • 函数内积\[ <f, g>=\int f(x) g(x) d x \] ## 函数特征值与特征函数

二元函数\(K(x,y)\)可视作一个无限个无限维向量构成的矩阵\(\boldsymbol{K}\) - 对称半正定: - 若\(K(x,y)=K(y,x)\)且对于任意\(f(x)\),都有 \[ \int \int f(x)K(x,y)f(y)dxdy \geqslant 0 \] 则称\(K(x,y)\)对应的矩阵\(K\)是对称半正定的

  • 特征函数和特征值\[\int K(x,y)\varphi(y)dy=\lambda\varphi(x)\]
    • \(\varphi\)\(K(x,y)\)特征函数,实数\(\lambda\)特征值
  • 特征函数相互正交:
    • 对于两个不同的特征值\(\lambda_1\)\(\lambda_2\)对应的特征函数\(\varphi_1,\varphi_2\)有:\[<\varphi_1,\varphi_2>=\int \varphi_1(x)\varphi_2(x)dx=\int \varphi_1(y)\varphi_2(y)dy=0\]