商务网站建设步骤有几个,网站建设总费用,点击进入官方网站,addthis wordpress数理基础 大数定律期望方差常见分布伯努利分布泊松分布高斯分布服从一维高斯分布的随机变量KL散度服从多元高斯分布的随机变量KL散度 Gibbs不等式凸函数Jensen不等式 似然函数泰勒近似信息论信息量信息熵KL散度JS散度交叉熵 Wiener ProcessSDE 大数定律
期望方差
x为连续随机… 数理基础 大数定律期望方差常见分布伯努利分布泊松分布高斯分布服从一维高斯分布的随机变量KL散度服从多元高斯分布的随机变量KL散度 Gibbs不等式凸函数Jensen不等式 似然函数泰勒近似信息论信息量信息熵KL散度JS散度交叉熵 Wiener ProcessSDE 大数定律
期望方差
x为连续随机变量其概率密度函数为 f x ( x ) f_x(x) fx(x)x的期望值为: E [ x ] ∫ − ∞ ∞ x f x ( x ) d x E[x] \int_{-\infty}^{\infty} xf_x(x)dx E[x]∫−∞∞xfx(x)dx g为一个函数g(x)的期望值为 E [ g ( x ) ] ∫ − ∞ ∞ g ( x ) f x ( x ) d x E[g(x)] \int_{-\infty}^{\infty}g(x)f_x(x)dx E[g(x)]∫−∞∞g(x)fx(x)dx
经常E会有下标代表了期望值是对应下标分布的随机变量上计算得出的。比如 E x ∼ f x ( x ) [ h ( x , y ) ] ∫ − ∞ ∞ h ( x , y ) f x ( x ) d x E_{x\sim f_x(x)}[h(x, y)] \int_{-\infty}^{\infty}h(x, y)f_x(x)dx Ex∼fx(x)[h(x,y)]∫−∞∞h(x,y)fx(x)dx
常见分布
伯努利分布
又名两点分布或者01分布是一个离散型概率分布。记其成功概率为 p p p( 0 ≤ p ≤ 1 0\leq p\leq1 0≤p≤1)则 其概率质量函数为 f x ( x ) p x ( 1 − p ) 1 − x { p ( x 1 ) 1 − p ( x 0 ) f_x(x)p^x(1-p)^{1-x}\left\{ \begin{aligned} p \quad \quad (x 1) \\ 1-p \quad \quad (x 0)\\ \end{aligned} \right. fx(x)px(1−p)1−x{p(x1)1−p(x0) 期望为 p p p方差为 p ( 1 − p ) p(1-p) p(1−p)。
泊松分布
Poisson分布是一个离散概率分布适合于描述单位时间内随机事件发生次数的概率分布。 概率质量函数为 p ( X k ) e − λ λ k k ! p(Xk) \frac{e^{-\lambda}\lambda^k}{k!} p(Xk)k!e−λλk 期望为 λ \lambda λ, 方差为 λ \sqrt{\lambda} λ 。
高斯分布
一维高斯分布 f x ( x ) 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f_x(x) \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} fx(x)2πσ2 1e−2σ2(x−μ)2
多元高斯分布 f x ( x ) 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] f_x(x) \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)] fx(x)(2π)n/2∣Σ∣1/21exp[−21(x−μ)TΣ−1(x−μ)] μ ∈ R n × 1 \mu \in R^{n\times 1} μ∈Rn×1, Σ ∈ R n × n \Sigma \in R^{n\times n} Σ∈Rn×n, ∣ Σ ∣ |\Sigma| ∣Σ∣为求协方差矩阵的det。
服从一维高斯分布的随机变量KL散度
两个高斯分布 p ( x ) N ( μ 1 , σ 1 ) p(x)N(\mu_1, \sigma_1) p(x)N(μ1,σ1)和 q ( x ) N ( μ 2 , σ 2 ) q(x)N(\mu_2, \sigma_2) q(x)N(μ2,σ2) D K L ( p , q ) ∫ p ( x ) l o g p ( x ) q ( x ) d x ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x \begin{aligned} D_{KL}(p, q) \int p(x)log\frac{p(x)}{q(x)}dx \\ \int p(x)[logp(x) - logq(x)]dx \\ \end{aligned} DKL(p,q)∫p(x)logq(x)p(x)dx∫p(x)[logp(x)−logq(x)]dx ∫ p ( x ) l o g p ( x ) d x ∫ p ( x ) l o g [ 1 2 π σ 1 2 e x p ( − ( x − μ 1 ) 2 2 σ 1 2 ) ] d x − 1 2 l o g ( 2 π σ 1 2 ) ∫ p ( x ) ( − ( x − μ 1 ) 2 2 σ 1 2 ) d x − 1 2 l o g ( 2 π σ 1 2 ) − ∫ p ( x ) x 2 d x − ∫ p ( x ) 2 x μ 1 d x ∫ p ( x ) μ 1 2 d x 2 σ 1 2 − 1 2 l o g ( 2 π σ 1 2 ) − μ 1 2 σ 1 2 − 2 μ 1 2 μ 1 2 2 σ 1 2 − 1 2 [ 1 l o g ( 2 π σ 1 2 ) ] \begin{aligned} \int p(x)logp(x)dx \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_1^2}}exp({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})]dx \\ -\frac{1}{2}log(2\pi\sigma_1^2) \int p(x)({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})dx \\ -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_1dx \int p(x)\mu_1^2dx}{2\sigma_1^2} \\ -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\mu_1^2 \sigma_1^2 - 2\mu_1^2 \mu_1^2}{2\sigma_1^2} \\ -\frac{1}{2}[1 log(2\pi\sigma_1^2)] \end{aligned} ∫p(x)logp(x)dx∫p(x)log[2πσ12 1exp(−2σ12(x−μ1)2)]dx−21log(2πσ12)∫p(x)(−2σ12(x−μ1)2)dx−21log(2πσ12)−2σ12∫p(x)x2dx−∫p(x)2xμ1dx∫p(x)μ12dx−21log(2πσ12)−2σ12μ12σ12−2μ12μ12−21[1log(2πσ12)] ∫ p ( x ) l o g q ( x ) d x ∫ p ( x ) l o g [ 1 2 π σ 2 2 e x p ( − ( x − μ 2 ) 2 2 σ 2 2 ) ] d x − 1 2 l o g ( 2 π σ 2 2 ) ∫ p ( x ) ( − ( x − μ 2 ) 2 2 σ 2 2 ) d x − 1 2 l o g ( 2 π σ 2 2 ) − ∫ p ( x ) x 2 d x − ∫ p ( x ) 2 x μ 2 d x ∫ p ( x ) μ 2 2 d x 2 σ 2 2 − 1 2 l o g ( 2 π σ 2 2 ) − μ 1 2 σ 1 2 − 2 μ 1 μ 2 μ 2 2 2 σ 2 2 − 1 2 l o g ( 2 π σ 2 2 ) − σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 \begin{aligned} \int p(x)logq(x)dx \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_2^2}}exp({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})]dx \\ -\frac{1}{2}log(2\pi\sigma_2^2) \int p(x)({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})dx \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_2dx \int p(x)\mu_2^2dx}{2\sigma_2^2} \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\mu_1^2 \sigma_1^2 - 2\mu_1\mu_2 \mu_2^2}{2\sigma_2^2} \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{ \sigma_1^2 (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ \end{aligned} ∫p(x)logq(x)dx∫p(x)log[2πσ22 1exp(−2σ22(x−μ2)2)]dx−21log(2πσ22)∫p(x)(−2σ22(x−μ2)2)dx−21log(2πσ22)−2σ22∫p(x)x2dx−∫p(x)2xμ2dx∫p(x)μ22dx−21log(2πσ22)−2σ22μ12σ12−2μ1μ2μ22−21log(2πσ22)−2σ22σ12(μ1−μ2)2
带入可得 D K L ( p , q ) ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x − 1 2 [ 1 l o g ( 2 π σ 1 2 ) ] 1 2 l o g ( 2 π σ 2 2 ) σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 l o g ( σ 2 σ 1 ) σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 − 1 2 \begin{aligned} D_{KL}(p, q) \int p(x)[logp(x) - logq(x)]dx \\ -\frac{1}{2}[1 log(2\pi\sigma_1^2)] \frac{1}{2}log(2\pi\sigma_2^2) \frac{ \sigma_1^2 (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ log(\frac{\sigma_2}{\sigma_1}) \frac{\sigma_1^2 (\mu_1-\mu_2)^2}{2\sigma_2^2} - \frac{1}{2} \end{aligned} DKL(p,q)∫p(x)[logp(x)−logq(x)]dx−21[1log(2πσ12)]21log(2πσ22)2σ22σ12(μ1−μ2)2log(σ1σ2)2σ22σ12(μ1−μ2)2−21
服从多元高斯分布的随机变量KL散度
与一元高斯分布类似第一部分 ∫ p ( x ) l o g p ( x ) d x ∫ p ( x ) l o g [ 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 e x p [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] ] d x l o g 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 ∫ p ( x ) [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] d x l o g 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 − 1 2 E x ∼ p ( x ) [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] \begin{aligned} \int p(x)logp(x)dx \int p(x) log[\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} exp[-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]] dx\\ log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} \int p(x) [-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]dx\\ log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned} ∫p(x)logp(x)dx∫p(x)log[(2π)n/2∣Σ1∣1/21exp[−21(x−μ1)TΣ1−1(x−μ1)]]dxlog(2π)n/2∣Σ1∣1/21∫p(x)[−21(x−μ1)TΣ1−1(x−μ1)]dxlog(2π)n/2∣Σ1∣1/21−21Ex∼p(x)[(x−μ1)TΣ1−1(x−μ1)] 第二部分同理可得 ∫ p ( x ) l o g q ( x ) d x l o g 1 ( 2 π ) n / 2 ∣ Σ 2 ∣ 1 / 2 − 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] \begin{aligned} \int p(x)logq(x)dx log\frac{1}{(2\pi)^{n/2}|\Sigma_2|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ \end{aligned} ∫p(x)logq(x)dxlog(2π)n/2∣Σ2∣1/21−21Ex∼p(x)[(x−μ2)TΣ2−1(x−μ2)]
带入可得 D K L ( p , q ) ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] \begin{aligned} D_{KL}(p, q) \int p(x)[logp(x) - logq(x)]dx \\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned} DKL(p,q)∫p(x)[logp(x)−logq(x)]dx21log∣Σ1∣∣Σ2∣21Ex∼p(x)[(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)]
多元正态分布下期望矩阵化的表示结果 E [ x T A x ] t r ( A Σ ) μ T A μ E[x^TAx] tr(A\Sigma) \mu^TA\mu E[xTAx]tr(AΣ)μTAμ 证明过程如下 E [ x T A x ] E [ t r ( x T A x ) ] E [ t r ( A x x T ) ] t r [ E ( A x x T ) ] t r [ A ⋅ E ( x x T ) ] t r [ A ( Σ μ μ T ) ] t r ( A Σ ) t r ( A μ μ T ) t r ( A Σ ) t r ( μ T A μ ) t r ( A Σ ) μ T A μ \begin{aligned} E[x^TAx] E[tr(x^TAx)] E[tr(Axx^T)] tr[E(Axx^T)] tr[A\cdot E(xx^T)] \\ tr[A(\Sigma \mu\mu^T)] \\ tr(A\Sigma) tr(A\mu\mu^T) \\ tr(A\Sigma) tr(\mu^TA\mu) \\ tr(A\Sigma) \mu^TA\mu \end{aligned} E[xTAx]E[tr(xTAx)]E[tr(AxxT)]tr[E(AxxT)]tr[A⋅E(xxT)]tr[A(ΣμμT)]tr(AΣ)tr(AμμT)tr(AΣ)tr(μTAμ)tr(AΣ)μTAμ 整个证明过程用到了如下性质 x T A x x^TAx xTAx是个标量因此 x T A x t r ( x T A x ) t r ( A x x T ) x^TAxtr(x^TAx)tr(Axx^T) xTAxtr(xTAx)tr(AxxT) Σ E [ ( x − μ ) ( x − μ ) T ] E [ x x T − x μ T − μ x T − μ μ T ] E ( x x T ) − μ μ T \SigmaE[(x-\mu)(x-\mu)^T] E[xx^T-x\mu^T-\mu x^T-\mu\mu^T]E(xx^T)-\mu\mu^T ΣE[(x−μ)(x−μ)T]E[xxT−xμT−μxT−μμT]E(xxT)−μμT
进一步带入可得 D K L ( p , q ) 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 t r ( Σ 2 − 1 Σ 1 ) ( μ 1 − μ 2 ) T Σ 2 − 1 ( μ 1 − μ 2 ) T − 1 2 t r ( Σ 1 − 1 Σ 1 ) − ( μ 1 − μ 1 ) T Σ 2 − 1 ( μ 1 − μ 1 ) T 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 t r ( Σ 2 − 1 Σ 1 ) ( μ 1 − μ 2 ) T Σ 2 − 1 ( μ 1 − μ 2 ) T − 1 2 n \begin{aligned} D_{KL}(p, q) \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T - \frac{1}{2}tr(\Sigma_1^{-1}\Sigma_1) - (\mu_1-\mu_1)^T\Sigma_2^{-1}(\mu_1-\mu_1)^T \\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T -\frac{1}{2}n \end{aligned} DKL(p,q)21log∣Σ1∣∣Σ2∣21Ex∼p(x)[(x−μ2)TΣ2−1(x−μ2)−(x−μ1)TΣ1−1(x−μ1)]21log∣Σ1∣∣Σ2∣21tr(Σ2−1Σ1)(μ1−μ2)TΣ2−1(μ1−μ2)T−21tr(Σ1−1Σ1)−(μ1−μ1)TΣ2−1(μ1−μ1)T21log∣Σ1∣∣Σ2∣21tr(Σ2−1Σ1)(μ1−μ2)TΣ2−1(μ1−μ2)T−21n
进一步延伸到VAE的训练过程假设 p ( x ) N ( μ 1 , σ 1 ) p(x)N(\mu_1, \sigma_1) p(x)N(μ1,σ1)为encoder估计出的隐变量 z z z概率分布的参数 q ( x ) N ( μ 2 , σ 2 ) ( 0 , I ) q(x)N(\mu_2, \sigma_2)(0, I) q(x)N(μ2,σ2)(0,I)为隐变量 z z z的先验分布。我们希望对学习到的隐变量分布进行约束使其符合标准高斯分布方便后续采样生成。则有: K L ( p , q ) K L ( N ( μ 1 , σ 1 ) , N ( 0 , I ) ) − l o g σ 1 1 2 ( σ 1 2 μ 1 2 ) − 1 2 KL(p, q) KL(N(\mu_1, \sigma_1), N(0, I)) -log\sigma_1 \frac{1}{2}(\sigma_1^2 \mu_1^2) - \frac{1}{2} KL(p,q)KL(N(μ1,σ1),N(0,I))−logσ121(σ12μ12)−21
Gibbs不等式
若 ∑ i 1 n p i ∑ i 1 n q i 1 \sum_{i1}^np_i\sum_{i1}^nq_i1 ∑i1npi∑i1nqi1且 p i , q i ∈ ( 0 , 1 ] p_i, q_i \in (0, 1] pi,qi∈(0,1]则有 − ∑ i n p i l o g p i ≤ − ∑ i n p i l o g q i -\sum_i^np_ilogp_i\leq -\sum_i^n p_ilogq_i −i∑npilogpi≤−i∑npilogqi 当且仅当 p i q i , ∀ i p_iq_i, \forall i piqi,∀i时等号成立。
凸函数
convex function是指函数图形上任意两点连成的线段皆位于图形的上方的实值函数。如单变的二次函数和指数函数。快速判断就是函数图形开口向上。
Jensen不等式
如果x是随机变量f是凸函数则有如下性质称之为Jensen’s inequality詹森不等式/琴生不等式。 f ( E ( x ) ) ≤ E [ f ( x ) ] f(E(x)) \leq E[f(x)] f(E(x))≤E[f(x)] ELBO证明中会用到对数似然这里延伸下log(x)函数是凹函数-log(x)是凸函数。则有 l o g ( E ( x ) ) ≥ E [ l o g ( x ) ] log(E(x)) \geq E[log(x)] log(E(x))≥E[log(x)]
似然函数
likelihood function译为似然函数。是一种关于统计模型中参数的函数表示模型参数的似然性。假设随机变量x的概率密度函数为 f ( x ∣ θ ) f(x|\theta) f(x∣θ)样本集D上有m个样本则D上的似然函数写作 L ( θ ∣ x ) ∏ i m f ( x i ∣ θ ) L(\theta|x) \prod_i^mf(x_i|\theta) L(θ∣x)∏imf(xi∣θ)。
为什么要用对数似然
对 p ( x ) p(x) p(x)取对数不影响单调性。减少计算量。似然函数是每个数据点概率的连乘。取对数可以将连乘化为连加同时如果概率分布中含有指数项比如高斯分布也能将指数项化为求和形式进一步减少计算量。利于结果更好的计算。因为概率在[0, 1]之间因此概率连乘会变为一个很小的值甚至可能会引起浮点数下溢尤其是当数据集很大时联合概率趋向于0非常不利于计算。
泰勒近似
泰勒公式: f ( x ) f ( x 0 ) f ′ ( x 0 ) ( x − x 0 ) f ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 . . . f n ( x 0 ) n ! ( x − x 0 ) n o ( ( x − x 0 ) n ) f(x) f(x_0) f^{}(x_0)(x-x_0) \frac{f^{}(x_0)}{2!}(x-x_0)^2 ... \frac{f^{n}(x_0)}{n!}(x-x_0)^n o((x-x_0)^n) f(x)f(x0)f′(x0)(x−x0)2!f′′(x0)(x−x0)2...n!fn(x0)(x−x0)no((x−x0)n) 麦克劳林公式泰勒公式的特殊形式在零点展开 f ( x ) f ( 0 ) f ′ ( 0 ) ( x ) f ′ ′ ( 0 ) 2 ! x 2 . . . f n ( 0 ) n ! x n o ( x n ) f(x) f(0) f^{}(0)(x) \frac{f^{}(0)}{2!}x^2 ... \frac{f^{n}(0)}{n!}x^n o(x^n) f(x)f(0)f′(0)(x)2!f′′(0)x2...n!fn(0)xno(xn) 常见函数的麦克劳林展开 e x 1 x 1 2 ! x 2 1 3 ! x 3 o ( x 3 ) e^x 1 x \frac{1}{2!}x^2 \frac{1}{3!}x^3 o(x^3) ex1x2!1x23!1x3o(x3) l n ( 1 x ) x − 1 2 ! x 2 1 3 ! x 3 o ( x 3 ) ln(1x) x - \frac{1}{2!}x^2 \frac{1}{3!}x^3 o(x^3) ln(1x)x−2!1x23!1x3o(x3) s i n ( x ) x − 1 3 ! x 3 1 5 ! x 5 o ( x 5 ) sin(x) x - \frac{1}{3!}x^3 \frac{1}{5!}x^5 o(x^5) sin(x)x−3!1x35!1x5o(x5) c o s ( x ) x − 1 2 ! x 2 1 4 ! x 4 o ( x 4 ) cos(x) x - \frac{1}{2!}x^2 \frac{1}{4!}x^4 o(x^4) cos(x)x−2!1x24!1x4o(x4) ( 1 x ) α 1 α 1 ! x α ( α − 1 ) 2 ! x 2 α ( α − 1 ) ( α − 2 ) 3 ! x 3 o ( x 3 ) (1x)^{\alpha} 1 \frac{\alpha}{1!}x \frac{\alpha(\alpha-1)}{2!}x^2 \frac{\alpha(\alpha-1)(\alpha-2)}{3!}x^3 o(x^3) (1x)α11!αx2!α(α−1)x23!α(α−1)(α−2)x3o(x3) 正常近似取到一阶或者二阶项即可。
信息论
信息量 − l o g ( p ( X x ) ) -log(p(Xx)) −log(p(Xx))表示一个概率事件或者随机变量X取值x时的信息量。 p ( X x ) p(Xx) p(Xx)为取值为x的概率。 信息量的单位随着计算公式中 l o g log log运算的底数而变化 l o g log log底数为2时单位为比特(bit)log底数为e时单位为奈特(nat)。
信息熵
信息熵就是期望信息量即对于一个信号系统来说对于每次的信号在平均意义上为了编码这个信号需要使用的信息量。在一个信号系统中信息熵最大的时候是当每个信号概率相等的时候。通过大数定律可知信息熵是编码一个信号系统所需信息量多理论下界。 h ( x ) − ∑ x ∈ X p ( x ) l o g p ( x ) h(x) - \sum_{x\in X} p(x)logp(x) h(x)−x∈X∑p(x)logp(x)
KL散度
全名Kullback-Leible散度又称相对熵。用以衡量两个分布之间的距离 D K L ( p , q ) D_{KL}(p, q) DKL(p,q)表示真实分布为 p p p时度量近似分布 q q q和真实分布之间的差异程度。
连续随机变量的KL散度 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∫ p ( x ) l o g p ( x ) q ( x ) d x D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\int p(x)log\frac{p(x)}{q(x)} dx DKL(p∣∣q)Ex∼p[logq(x)p(x)]∫p(x)logq(x)p(x)dx 离散随机变量的KL散度 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} DKL(p∣∣q)Ex∼p[logq(x)p(x)]x∈X∑p(x)logq(x)p(x)
KL散度有如下特性
不对称性 D K L ( p ∣ ∣ q ) ≠ D K L ( q ∣ ∣ p ) D_{KL}(p||q) \neq D_{KL}(q||p) DKL(p∣∣q)DKL(q∣∣p)。非负性 D K L ( p ∣ ∣ q ) ≥ 0 D_{KL}(p||q)\geq0 DKL(p∣∣q)≥0。
JS散度
Jensen-Shanno散度是对称的。
交叉熵
交叉熵定义如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] H(p, q) E_{x\sim p}[-logq(x)] H(p,q)Ex∼p[−logq(x)] 离散随机变量的交叉熵形式如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] − ∑ x ∈ X p ( x ) l o g q ( x ) H(p, q) E_{x\sim p}[-logq(x)] -\sum_{x\in X}p(x)logq(x) H(p,q)Ex∼p[−logq(x)]−x∈X∑p(x)logq(x) 连续随机变量的交叉熵形式如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] ∫ p ( x ) l o g q ( x ) d x H(p, q) E_{x\sim p}[-logq(x)] \int p(x)logq(x)dx H(p,q)Ex∼p[−logq(x)]∫p(x)logq(x)dx
交叉熵可由相对熵推导得到 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) ∑ x ∈ X p ( x ) l o g p ( x ) − ∑ x ∈ X p ( x ) l o g q ( x ) − H ( p ) H ( p , q ) \begin{aligned} D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} \\ \sum_{x\in X}p(x)logp(x) - \sum_{x\in X}p(x)logq(x) \\ -H(p) H(p, q) \end{aligned} DKL(p∣∣q)Ex∼p[logq(x)p(x)]x∈X∑p(x)logq(x)p(x)x∈X∑p(x)logp(x)−x∈X∑p(x)logq(x)−H(p)H(p,q) H ( p ) H(p) H(p)为真实分布的信息熵不影响模型参数优化。因此模型优化过程中可以直接用交叉熵 H ( p , q H(p, q H(p,q作为目标函数。
对于交叉熵可以有个直观的解释数据集服从真实分布 p p p从数据集中抽取样本 x x x该样本被抽到的概率为 p ( x ) p(x) p(x)如果用近似分布 q q q去编码该样本需要用到的信息量为 − l o g q ( x ) -logq(x) −logq(x)。对整个数据集求期望当近似分布的参数优化至 H ( p , q ) H ( p ) H(p, q)H(p) H(p,q)H(p)时可以认为近似分布 q ( x ) q(x) q(x)已优化至和真实分布 p ( x ) p(x) p(x)一致。
Wiener Process
维纳过程又称为布朗运动它是一种连续时间连续状态的独立增量过程其增量服从正态分布 N ∼ ( 0 , Δ t ) N\sim(0, \Delta t) N∼(0,Δt)。可以用以下公式来表示维纳过程 W ( t ) t Z W(t) \sqrt{t} Z W(t)t Z 其中 Z Z Z是一个标准正态分布随机变量t表示时间。对于维纳过程我们可以证明其具有如下性质 W ( 0 ) W(0) W(0) 0。 W ( t ) W(t) W(t)是一个连续的随机变量。 W ( t ) W(t) W(t)具有独立增量对于任意 0 ≤ t 1 t 2 . . . t n 0\leq t_1 t_2 ...t_n 0≤t1t2...tn其增量 W ( t i 1 ) W(t_{i1}) W(ti1) - W ( t i ) W(t_{i}) W(ti)相互独立。增量服从正态分布对于任意 0 ≤ s t 0\leq s t 0≤st其增量 W ( t ) W(t) W(t) - W ( s ) W(s) W(s)服从 N ∼ ( 0 , t − s ) N\sim(0, t-s) N∼(0,t−s)的正态分布。
SDE
Applied Stochastic Differential Equations 随机微分方程最泛化的表达形式: d x f ( x , t ) d t L ( x , t ) d w dx f(x, t)dt L(x, t)dw dxf(x,t)dtL(x,t)dw f ( x , t ) f(x, t) f(x,t)为drift函数决定了系统的nominal dynamics L ( x , t ) L(x, t) L(x,t)是扩散矩阵决定了噪声如何进入系统。 w w w为布朗运动。
其均值和方差可表示为 d m d t E [ f ( x , t ) ] \frac{dm}{dt} E[f(x, t)] dtdmE[f(x,t)] d P d t E [ f ( x , t ) ( x − m ) T ] E [ ( x − m ) f T ( x , t ) ] E [ L ( x , t ) Q L T ( x , t ) ] \frac{dP}{dt} E[f(x, t)(x-m)^T] E[(x-m)f^T(x, t)] E[L(x, t)QL^T(x, t)] dtdPE[f(x,t)(x−m)T]E[(x−m)fT(x,t)]E[L(x,t)QLT(x,t)] 具体可见上书的公式5.51。