当前位置: 首页 > news >正文

商务网站建设步骤有几个网站建设总费用

商务网站建设步骤有几个,网站建设总费用,点击进入官方网站,addthis wordpress数理基础 大数定律期望方差常见分布伯努利分布泊松分布高斯分布服从一维高斯分布的随机变量KL散度服从多元高斯分布的随机变量KL散度 Gibbs不等式凸函数Jensen不等式 似然函数泰勒近似信息论信息量信息熵KL散度JS散度交叉熵 Wiener ProcessSDE 大数定律 期望方差 x为连续随机… 数理基础 大数定律期望方差常见分布伯努利分布泊松分布高斯分布服从一维高斯分布的随机变量KL散度服从多元高斯分布的随机变量KL散度 Gibbs不等式凸函数Jensen不等式 似然函数泰勒近似信息论信息量信息熵KL散度JS散度交叉熵 Wiener ProcessSDE 大数定律 期望方差 x为连续随机变量其概率密度函数为 f x ( x ) f_x(x) fx​(x)x的期望值为: E [ x ] ∫ − ∞ ∞ x f x ( x ) d x E[x] \int_{-\infty}^{\infty} xf_x(x)dx E[x]∫−∞∞​xfx​(x)dx g为一个函数g(x)的期望值为 E [ g ( x ) ] ∫ − ∞ ∞ g ( x ) f x ( x ) d x E[g(x)] \int_{-\infty}^{\infty}g(x)f_x(x)dx E[g(x)]∫−∞∞​g(x)fx​(x)dx 经常E会有下标代表了期望值是对应下标分布的随机变量上计算得出的。比如 E x ∼ f x ( x ) [ h ( x , y ) ] ∫ − ∞ ∞ h ( x , y ) f x ( x ) d x E_{x\sim f_x(x)}[h(x, y)] \int_{-\infty}^{\infty}h(x, y)f_x(x)dx Ex∼fx​(x)​[h(x,y)]∫−∞∞​h(x,y)fx​(x)dx 常见分布 伯努利分布 又名两点分布或者01分布是一个离散型概率分布。记其成功概率为 p p p( 0 ≤ p ≤ 1 0\leq p\leq1 0≤p≤1)则 其概率质量函数为 f x ( x ) p x ( 1 − p ) 1 − x { p ( x 1 ) 1 − p ( x 0 ) f_x(x)p^x(1-p)^{1-x}\left\{ \begin{aligned} p \quad \quad (x 1) \\ 1-p \quad \quad (x 0)\\ \end{aligned} \right. fx​(x)px(1−p)1−x{p(x1)1−p(x0)​ 期望为 p p p方差为 p ( 1 − p ) p(1-p) p(1−p)。 泊松分布 Poisson分布是一个离散概率分布适合于描述单位时间内随机事件发生次数的概率分布。 概率质量函数为 p ( X k ) e − λ λ k k ! p(Xk) \frac{e^{-\lambda}\lambda^k}{k!} p(Xk)k!e−λλk​ 期望为 λ \lambda λ, 方差为 λ \sqrt{\lambda} λ ​。 高斯分布 一维高斯分布 f x ( x ) 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f_x(x) \frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{(x-\mu)^2}{2\sigma^2}} fx​(x)2πσ2 ​1​e−2σ2(x−μ)2​ 多元高斯分布 f x ( x ) 1 ( 2 π ) n / 2 ∣ Σ ∣ 1 / 2 e x p [ − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ] f_x(x) \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)] fx​(x)(2π)n/2∣Σ∣1/21​exp[−21​(x−μ)TΣ−1(x−μ)] μ ∈ R n × 1 \mu \in R^{n\times 1} μ∈Rn×1, Σ ∈ R n × n \Sigma \in R^{n\times n} Σ∈Rn×n, ∣ Σ ∣ |\Sigma| ∣Σ∣为求协方差矩阵的det。 服从一维高斯分布的随机变量KL散度 两个高斯分布 p ( x ) N ( μ 1 , σ 1 ) p(x)N(\mu_1, \sigma_1) p(x)N(μ1​,σ1​)和 q ( x ) N ( μ 2 , σ 2 ) q(x)N(\mu_2, \sigma_2) q(x)N(μ2​,σ2​) D K L ( p , q ) ∫ p ( x ) l o g p ( x ) q ( x ) d x ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x \begin{aligned} D_{KL}(p, q) \int p(x)log\frac{p(x)}{q(x)}dx \\ \int p(x)[logp(x) - logq(x)]dx \\ \end{aligned} DKL​(p,q)​∫p(x)logq(x)p(x)​dx∫p(x)[logp(x)−logq(x)]dx​ ∫ p ( x ) l o g p ( x ) d x ∫ p ( x ) l o g [ 1 2 π σ 1 2 e x p ( − ( x − μ 1 ) 2 2 σ 1 2 ) ] d x − 1 2 l o g ( 2 π σ 1 2 ) ∫ p ( x ) ( − ( x − μ 1 ) 2 2 σ 1 2 ) d x − 1 2 l o g ( 2 π σ 1 2 ) − ∫ p ( x ) x 2 d x − ∫ p ( x ) 2 x μ 1 d x ∫ p ( x ) μ 1 2 d x 2 σ 1 2 − 1 2 l o g ( 2 π σ 1 2 ) − μ 1 2 σ 1 2 − 2 μ 1 2 μ 1 2 2 σ 1 2 − 1 2 [ 1 l o g ( 2 π σ 1 2 ) ] \begin{aligned} \int p(x)logp(x)dx \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_1^2}}exp({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})]dx \\ -\frac{1}{2}log(2\pi\sigma_1^2) \int p(x)({-\frac{(x-\mu_1)^2}{2\sigma_1^2}})dx \\ -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_1dx \int p(x)\mu_1^2dx}{2\sigma_1^2} \\ -\frac{1}{2}log(2\pi\sigma_1^2) - \frac{\mu_1^2 \sigma_1^2 - 2\mu_1^2 \mu_1^2}{2\sigma_1^2} \\ -\frac{1}{2}[1 log(2\pi\sigma_1^2)] \end{aligned} ∫p(x)logp(x)dx​∫p(x)log[2πσ12​ ​1​exp(−2σ12​(x−μ1​)2​)]dx−21​log(2πσ12​)∫p(x)(−2σ12​(x−μ1​)2​)dx−21​log(2πσ12​)−2σ12​∫p(x)x2dx−∫p(x)2xμ1​dx∫p(x)μ12​dx​−21​log(2πσ12​)−2σ12​μ12​σ12​−2μ12​μ12​​−21​[1log(2πσ12​)]​ ∫ p ( x ) l o g q ( x ) d x ∫ p ( x ) l o g [ 1 2 π σ 2 2 e x p ( − ( x − μ 2 ) 2 2 σ 2 2 ) ] d x − 1 2 l o g ( 2 π σ 2 2 ) ∫ p ( x ) ( − ( x − μ 2 ) 2 2 σ 2 2 ) d x − 1 2 l o g ( 2 π σ 2 2 ) − ∫ p ( x ) x 2 d x − ∫ p ( x ) 2 x μ 2 d x ∫ p ( x ) μ 2 2 d x 2 σ 2 2 − 1 2 l o g ( 2 π σ 2 2 ) − μ 1 2 σ 1 2 − 2 μ 1 μ 2 μ 2 2 2 σ 2 2 − 1 2 l o g ( 2 π σ 2 2 ) − σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 \begin{aligned} \int p(x)logq(x)dx \int p(x) log[\frac{1}{\sqrt{2\pi\sigma_2^2}}exp({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})]dx \\ -\frac{1}{2}log(2\pi\sigma_2^2) \int p(x)({-\frac{(x-\mu_2)^2}{2\sigma_2^2}})dx \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\int p(x)x^2dx - \int p(x)2x\mu_2dx \int p(x)\mu_2^2dx}{2\sigma_2^2} \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{\mu_1^2 \sigma_1^2 - 2\mu_1\mu_2 \mu_2^2}{2\sigma_2^2} \\ -\frac{1}{2}log(2\pi\sigma_2^2) - \frac{ \sigma_1^2 (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ \end{aligned} ∫p(x)logq(x)dx​∫p(x)log[2πσ22​ ​1​exp(−2σ22​(x−μ2​)2​)]dx−21​log(2πσ22​)∫p(x)(−2σ22​(x−μ2​)2​)dx−21​log(2πσ22​)−2σ22​∫p(x)x2dx−∫p(x)2xμ2​dx∫p(x)μ22​dx​−21​log(2πσ22​)−2σ22​μ12​σ12​−2μ1​μ2​μ22​​−21​log(2πσ22​)−2σ22​σ12​(μ1​−μ2​)2​​ 带入可得 D K L ( p , q ) ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x − 1 2 [ 1 l o g ( 2 π σ 1 2 ) ] 1 2 l o g ( 2 π σ 2 2 ) σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 l o g ( σ 2 σ 1 ) σ 1 2 ( μ 1 − μ 2 ) 2 2 σ 2 2 − 1 2 \begin{aligned} D_{KL}(p, q) \int p(x)[logp(x) - logq(x)]dx \\ -\frac{1}{2}[1 log(2\pi\sigma_1^2)] \frac{1}{2}log(2\pi\sigma_2^2) \frac{ \sigma_1^2 (\mu_1 - \mu_2)^2}{2\sigma_2^2} \\ log(\frac{\sigma_2}{\sigma_1}) \frac{\sigma_1^2 (\mu_1-\mu_2)^2}{2\sigma_2^2} - \frac{1}{2} \end{aligned} DKL​(p,q)​∫p(x)[logp(x)−logq(x)]dx−21​[1log(2πσ12​)]21​log(2πσ22​)2σ22​σ12​(μ1​−μ2​)2​log(σ1​σ2​​)2σ22​σ12​(μ1​−μ2​)2​−21​​ 服从多元高斯分布的随机变量KL散度 与一元高斯分布类似第一部分 ∫ p ( x ) l o g p ( x ) d x ∫ p ( x ) l o g [ 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 e x p [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] ] d x l o g 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 ∫ p ( x ) [ − 1 2 ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] d x l o g 1 ( 2 π ) n / 2 ∣ Σ 1 ∣ 1 / 2 − 1 2 E x ∼ p ( x ) [ ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] \begin{aligned} \int p(x)logp(x)dx \int p(x) log[\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} exp[-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]] dx\\ log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} \int p(x) [-\frac{1}{2}(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]dx\\ log\frac{1}{(2\pi)^{n/2}|\Sigma_1|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned} ∫p(x)logp(x)dx​∫p(x)log[(2π)n/2∣Σ1​∣1/21​exp[−21​(x−μ1​)TΣ1−1​(x−μ1​)]]dxlog(2π)n/2∣Σ1​∣1/21​∫p(x)[−21​(x−μ1​)TΣ1−1​(x−μ1​)]dxlog(2π)n/2∣Σ1​∣1/21​−21​Ex∼p(x)​[(x−μ1​)TΣ1−1​(x−μ1​)]​ 第二部分同理可得 ∫ p ( x ) l o g q ( x ) d x l o g 1 ( 2 π ) n / 2 ∣ Σ 2 ∣ 1 / 2 − 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) ] \begin{aligned} \int p(x)logq(x)dx log\frac{1}{(2\pi)^{n/2}|\Sigma_2|^{1/2}} -\frac{1}{2}E_{x\sim p(x)}[(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2)]\\ \end{aligned} ∫p(x)logq(x)dx​log(2π)n/2∣Σ2​∣1/21​−21​Ex∼p(x)​[(x−μ2​)TΣ2−1​(x−μ2​)]​ 带入可得 D K L ( p , q ) ∫ p ( x ) [ l o g p ( x ) − l o g q ( x ) ] d x 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] \begin{aligned} D_{KL}(p, q) \int p(x)[logp(x) - logq(x)]dx \\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)] \end{aligned} DKL​(p,q)​∫p(x)[logp(x)−logq(x)]dx21​log∣Σ1​∣∣Σ2​∣​21​Ex∼p(x)​[(x−μ2​)TΣ2−1​(x−μ2​)−(x−μ1​)TΣ1−1​(x−μ1​)]​ 多元正态分布下期望矩阵化的表示结果 E [ x T A x ] t r ( A Σ ) μ T A μ E[x^TAx] tr(A\Sigma) \mu^TA\mu E[xTAx]tr(AΣ)μTAμ 证明过程如下 E [ x T A x ] E [ t r ( x T A x ) ] E [ t r ( A x x T ) ] t r [ E ( A x x T ) ] t r [ A ⋅ E ( x x T ) ] t r [ A ( Σ μ μ T ) ] t r ( A Σ ) t r ( A μ μ T ) t r ( A Σ ) t r ( μ T A μ ) t r ( A Σ ) μ T A μ \begin{aligned} E[x^TAx] E[tr(x^TAx)] E[tr(Axx^T)] tr[E(Axx^T)] tr[A\cdot E(xx^T)] \\ tr[A(\Sigma \mu\mu^T)] \\ tr(A\Sigma) tr(A\mu\mu^T) \\ tr(A\Sigma) tr(\mu^TA\mu) \\ tr(A\Sigma) \mu^TA\mu \end{aligned} E[xTAx]E[tr(xTAx)]E[tr(AxxT)]tr[E(AxxT)]​tr[A⋅E(xxT)]tr[A(ΣμμT)]tr(AΣ)tr(AμμT)tr(AΣ)tr(μTAμ)tr(AΣ)μTAμ​ 整个证明过程用到了如下性质 x T A x x^TAx xTAx是个标量因此 x T A x t r ( x T A x ) t r ( A x x T ) x^TAxtr(x^TAx)tr(Axx^T) xTAxtr(xTAx)tr(AxxT) Σ E [ ( x − μ ) ( x − μ ) T ] E [ x x T − x μ T − μ x T − μ μ T ] E ( x x T ) − μ μ T \SigmaE[(x-\mu)(x-\mu)^T] E[xx^T-x\mu^T-\mu x^T-\mu\mu^T]E(xx^T)-\mu\mu^T ΣE[(x−μ)(x−μ)T]E[xxT−xμT−μxT−μμT]E(xxT)−μμT 进一步带入可得 D K L ( p , q ) 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 E x ∼ p ( x ) [ ( x − μ 2 ) T Σ 2 − 1 ( x − μ 2 ) − ( x − μ 1 ) T Σ 1 − 1 ( x − μ 1 ) ] 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 t r ( Σ 2 − 1 Σ 1 ) ( μ 1 − μ 2 ) T Σ 2 − 1 ( μ 1 − μ 2 ) T − 1 2 t r ( Σ 1 − 1 Σ 1 ) − ( μ 1 − μ 1 ) T Σ 2 − 1 ( μ 1 − μ 1 ) T 1 2 l o g ∣ Σ 2 ∣ ∣ Σ 1 ∣ 1 2 t r ( Σ 2 − 1 Σ 1 ) ( μ 1 − μ 2 ) T Σ 2 − 1 ( μ 1 − μ 2 ) T − 1 2 n \begin{aligned} D_{KL}(p, q) \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}E_{x\sim p(x)} [(x-\mu_2)^T\Sigma_2^{-1}(x-\mu_2) - (x-\mu_1)^T\Sigma_1^{-1}(x-\mu_1)]\\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T - \frac{1}{2}tr(\Sigma_1^{-1}\Sigma_1) - (\mu_1-\mu_1)^T\Sigma_2^{-1}(\mu_1-\mu_1)^T \\ \frac{1}{2}log\frac{|\Sigma_2|}{|\Sigma_1|} \frac{1}{2}tr(\Sigma_2^{-1}\Sigma_1) (\mu_1 - \mu_2)^T\Sigma_2^{-1}(\mu_1-\mu_2)^T -\frac{1}{2}n \end{aligned} DKL​(p,q)​21​log∣Σ1​∣∣Σ2​∣​21​Ex∼p(x)​[(x−μ2​)TΣ2−1​(x−μ2​)−(x−μ1​)TΣ1−1​(x−μ1​)]21​log∣Σ1​∣∣Σ2​∣​21​tr(Σ2−1​Σ1​)(μ1​−μ2​)TΣ2−1​(μ1​−μ2​)T−21​tr(Σ1−1​Σ1​)−(μ1​−μ1​)TΣ2−1​(μ1​−μ1​)T21​log∣Σ1​∣∣Σ2​∣​21​tr(Σ2−1​Σ1​)(μ1​−μ2​)TΣ2−1​(μ1​−μ2​)T−21​n​ 进一步延伸到VAE的训练过程假设 p ( x ) N ( μ 1 , σ 1 ) p(x)N(\mu_1, \sigma_1) p(x)N(μ1​,σ1​)为encoder估计出的隐变量 z z z概率分布的参数 q ( x ) N ( μ 2 , σ 2 ) ( 0 , I ) q(x)N(\mu_2, \sigma_2)(0, I) q(x)N(μ2​,σ2​)(0,I)为隐变量 z z z的先验分布。我们希望对学习到的隐变量分布进行约束使其符合标准高斯分布方便后续采样生成。则有: K L ( p , q ) K L ( N ( μ 1 , σ 1 ) , N ( 0 , I ) ) − l o g σ 1 1 2 ( σ 1 2 μ 1 2 ) − 1 2 KL(p, q) KL(N(\mu_1, \sigma_1), N(0, I)) -log\sigma_1 \frac{1}{2}(\sigma_1^2 \mu_1^2) - \frac{1}{2} KL(p,q)KL(N(μ1​,σ1​),N(0,I))−logσ1​21​(σ12​μ12​)−21​ Gibbs不等式 若 ∑ i 1 n p i ∑ i 1 n q i 1 \sum_{i1}^np_i\sum_{i1}^nq_i1 ∑i1n​pi​∑i1n​qi​1且 p i , q i ∈ ( 0 , 1 ] p_i, q_i \in (0, 1] pi​,qi​∈(0,1]则有 − ∑ i n p i l o g p i ≤ − ∑ i n p i l o g q i -\sum_i^np_ilogp_i\leq -\sum_i^n p_ilogq_i −i∑n​pi​logpi​≤−i∑n​pi​logqi​ 当且仅当 p i q i , ∀ i p_iq_i, \forall i pi​qi​,∀i时等号成立。 凸函数 convex function是指函数图形上任意两点连成的线段皆位于图形的上方的实值函数。如单变的二次函数和指数函数。快速判断就是函数图形开口向上。 Jensen不等式 如果x是随机变量f是凸函数则有如下性质称之为Jensen’s inequality詹森不等式/琴生不等式。 f ( E ( x ) ) ≤ E [ f ( x ) ] f(E(x)) \leq E[f(x)] f(E(x))≤E[f(x)] ELBO证明中会用到对数似然这里延伸下log(x)函数是凹函数-log(x)是凸函数。则有 l o g ( E ( x ) ) ≥ E [ l o g ( x ) ] log(E(x)) \geq E[log(x)] log(E(x))≥E[log(x)] 似然函数 likelihood function译为似然函数。是一种关于统计模型中参数的函数表示模型参数的似然性。假设随机变量x的概率密度函数为 f ( x ∣ θ ) f(x|\theta) f(x∣θ)样本集D上有m个样本则D上的似然函数写作 L ( θ ∣ x ) ∏ i m f ( x i ∣ θ ) L(\theta|x) \prod_i^mf(x_i|\theta) L(θ∣x)∏im​f(xi​∣θ)。 为什么要用对数似然 对 p ( x ) p(x) p(x)取对数不影响单调性。减少计算量。似然函数是每个数据点概率的连乘。取对数可以将连乘化为连加同时如果概率分布中含有指数项比如高斯分布也能将指数项化为求和形式进一步减少计算量。利于结果更好的计算。因为概率在[0, 1]之间因此概率连乘会变为一个很小的值甚至可能会引起浮点数下溢尤其是当数据集很大时联合概率趋向于0非常不利于计算。 泰勒近似 泰勒公式: f ( x ) f ( x 0 ) f ′ ( x 0 ) ( x − x 0 ) f ′ ′ ( x 0 ) 2 ! ( x − x 0 ) 2 . . . f n ( x 0 ) n ! ( x − x 0 ) n o ( ( x − x 0 ) n ) f(x) f(x_0) f^{}(x_0)(x-x_0) \frac{f^{}(x_0)}{2!}(x-x_0)^2 ... \frac{f^{n}(x_0)}{n!}(x-x_0)^n o((x-x_0)^n) f(x)f(x0​)f′(x0​)(x−x0​)2!f′′(x0​)​(x−x0​)2...n!fn(x0​)​(x−x0​)no((x−x0​)n) 麦克劳林公式泰勒公式的特殊形式在零点展开 f ( x ) f ( 0 ) f ′ ( 0 ) ( x ) f ′ ′ ( 0 ) 2 ! x 2 . . . f n ( 0 ) n ! x n o ( x n ) f(x) f(0) f^{}(0)(x) \frac{f^{}(0)}{2!}x^2 ... \frac{f^{n}(0)}{n!}x^n o(x^n) f(x)f(0)f′(0)(x)2!f′′(0)​x2...n!fn(0)​xno(xn) 常见函数的麦克劳林展开 e x 1 x 1 2 ! x 2 1 3 ! x 3 o ( x 3 ) e^x 1 x \frac{1}{2!}x^2 \frac{1}{3!}x^3 o(x^3) ex1x2!1​x23!1​x3o(x3) l n ( 1 x ) x − 1 2 ! x 2 1 3 ! x 3 o ( x 3 ) ln(1x) x - \frac{1}{2!}x^2 \frac{1}{3!}x^3 o(x^3) ln(1x)x−2!1​x23!1​x3o(x3) s i n ( x ) x − 1 3 ! x 3 1 5 ! x 5 o ( x 5 ) sin(x) x - \frac{1}{3!}x^3 \frac{1}{5!}x^5 o(x^5) sin(x)x−3!1​x35!1​x5o(x5) c o s ( x ) x − 1 2 ! x 2 1 4 ! x 4 o ( x 4 ) cos(x) x - \frac{1}{2!}x^2 \frac{1}{4!}x^4 o(x^4) cos(x)x−2!1​x24!1​x4o(x4) ( 1 x ) α 1 α 1 ! x α ( α − 1 ) 2 ! x 2 α ( α − 1 ) ( α − 2 ) 3 ! x 3 o ( x 3 ) (1x)^{\alpha} 1 \frac{\alpha}{1!}x \frac{\alpha(\alpha-1)}{2!}x^2 \frac{\alpha(\alpha-1)(\alpha-2)}{3!}x^3 o(x^3) (1x)α11!α​x2!α(α−1)​x23!α(α−1)(α−2)​x3o(x3) 正常近似取到一阶或者二阶项即可。 信息论 信息量 − l o g ( p ( X x ) ) -log(p(Xx)) −log(p(Xx))表示一个概率事件或者随机变量X取值x时的信息量。 p ( X x ) p(Xx) p(Xx)为取值为x的概率。 信息量的单位随着计算公式中 l o g log log运算的底数而变化 l o g log log底数为2时单位为比特(bit)log底数为e时单位为奈特(nat)。 信息熵 信息熵就是期望信息量即对于一个信号系统来说对于每次的信号在平均意义上为了编码这个信号需要使用的信息量。在一个信号系统中信息熵最大的时候是当每个信号概率相等的时候。通过大数定律可知信息熵是编码一个信号系统所需信息量多理论下界。 h ( x ) − ∑ x ∈ X p ( x ) l o g p ( x ) h(x) - \sum_{x\in X} p(x)logp(x) h(x)−x∈X∑​p(x)logp(x) KL散度 全名Kullback-Leible散度又称相对熵。用以衡量两个分布之间的距离 D K L ( p , q ) D_{KL}(p, q) DKL​(p,q)表示真实分布为 p p p时度量近似分布 q q q和真实分布之间的差异程度。 连续随机变量的KL散度 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∫ p ( x ) l o g p ( x ) q ( x ) d x D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\int p(x)log\frac{p(x)}{q(x)} dx DKL​(p∣∣q)Ex∼p​[logq(x)p(x)​]∫p(x)logq(x)p(x)​dx 离散随机变量的KL散度 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} DKL​(p∣∣q)Ex∼p​[logq(x)p(x)​]x∈X∑​p(x)logq(x)p(x)​ KL散度有如下特性 不对称性 D K L ( p ∣ ∣ q ) ≠ D K L ( q ∣ ∣ p ) D_{KL}(p||q) \neq D_{KL}(q||p) DKL​(p∣∣q)DKL​(q∣∣p)。非负性 D K L ( p ∣ ∣ q ) ≥ 0 D_{KL}(p||q)\geq0 DKL​(p∣∣q)≥0。 JS散度 Jensen-Shanno散度是对称的。 交叉熵 交叉熵定义如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] H(p, q) E_{x\sim p}[-logq(x)] H(p,q)Ex∼p​[−logq(x)] 离散随机变量的交叉熵形式如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] − ∑ x ∈ X p ( x ) l o g q ( x ) H(p, q) E_{x\sim p}[-logq(x)] -\sum_{x\in X}p(x)logq(x) H(p,q)Ex∼p​[−logq(x)]−x∈X∑​p(x)logq(x) 连续随机变量的交叉熵形式如下 H ( p , q ) E x ∼ p [ − l o g q ( x ) ] ∫ p ( x ) l o g q ( x ) d x H(p, q) E_{x\sim p}[-logq(x)] \int p(x)logq(x)dx H(p,q)Ex∼p​[−logq(x)]∫p(x)logq(x)dx 交叉熵可由相对熵推导得到 D K L ( p ∣ ∣ q ) E x ∼ p [ l o g p ( x ) q ( x ) ] ∑ x ∈ X p ( x ) l o g p ( x ) q ( x ) ∑ x ∈ X p ( x ) l o g p ( x ) − ∑ x ∈ X p ( x ) l o g q ( x ) − H ( p ) H ( p , q ) \begin{aligned} D_{KL}(p||q) E_{x\sim p}[log\frac{p(x)}{q(x)}]\sum_{x\in X}p(x)log\frac{p(x)}{q(x)} \\ \sum_{x\in X}p(x)logp(x) - \sum_{x\in X}p(x)logq(x) \\ -H(p) H(p, q) \end{aligned} DKL​(p∣∣q)Ex∼p​[logq(x)p(x)​]​x∈X∑​p(x)logq(x)p(x)​x∈X∑​p(x)logp(x)−x∈X∑​p(x)logq(x)−H(p)H(p,q)​ H ( p ) H(p) H(p)为真实分布的信息熵不影响模型参数优化。因此模型优化过程中可以直接用交叉熵 H ( p , q H(p, q H(p,q作为目标函数。 对于交叉熵可以有个直观的解释数据集服从真实分布 p p p从数据集中抽取样本 x x x该样本被抽到的概率为 p ( x ) p(x) p(x)如果用近似分布 q q q去编码该样本需要用到的信息量为 − l o g q ( x ) -logq(x) −logq(x)。对整个数据集求期望当近似分布的参数优化至 H ( p , q ) H ( p ) H(p, q)H(p) H(p,q)H(p)时可以认为近似分布 q ( x ) q(x) q(x)已优化至和真实分布 p ( x ) p(x) p(x)一致。 Wiener Process 维纳过程又称为布朗运动它是一种连续时间连续状态的独立增量过程其增量服从正态分布 N ∼ ( 0 , Δ t ) N\sim(0, \Delta t) N∼(0,Δt)。可以用以下公式来表示维纳过程 W ( t ) t Z W(t) \sqrt{t} Z W(t)t ​Z 其中 Z Z Z是一个标准正态分布随机变量t表示时间。对于维纳过程我们可以证明其具有如下性质 W ( 0 ) W(0) W(0) 0。 W ( t ) W(t) W(t)是一个连续的随机变量。 W ( t ) W(t) W(t)具有独立增量对于任意 0 ≤ t 1 t 2 . . . t n 0\leq t_1 t_2 ...t_n 0≤t1​t2​...tn​其增量 W ( t i 1 ) W(t_{i1}) W(ti1​) - W ( t i ) W(t_{i}) W(ti​)相互独立。增量服从正态分布对于任意 0 ≤ s t 0\leq s t 0≤st其增量 W ( t ) W(t) W(t) - W ( s ) W(s) W(s)服从 N ∼ ( 0 , t − s ) N\sim(0, t-s) N∼(0,t−s)的正态分布。 SDE Applied Stochastic Differential Equations 随机微分方程最泛化的表达形式: d x f ( x , t ) d t L ( x , t ) d w dx f(x, t)dt L(x, t)dw dxf(x,t)dtL(x,t)dw f ( x , t ) f(x, t) f(x,t)为drift函数决定了系统的nominal dynamics L ( x , t ) L(x, t) L(x,t)是扩散矩阵决定了噪声如何进入系统。 w w w为布朗运动。 其均值和方差可表示为 d m d t E [ f ( x , t ) ] \frac{dm}{dt} E[f(x, t)] dtdm​E[f(x,t)] d P d t E [ f ( x , t ) ( x − m ) T ] E [ ( x − m ) f T ( x , t ) ] E [ L ( x , t ) Q L T ( x , t ) ] \frac{dP}{dt} E[f(x, t)(x-m)^T] E[(x-m)f^T(x, t)] E[L(x, t)QL^T(x, t)] dtdP​E[f(x,t)(x−m)T]E[(x−m)fT(x,t)]E[L(x,t)QLT(x,t)] 具体可见上书的公式5.51。
http://www.yingshimen.cn/news/95380/

相关文章:

  • 有哪些站内推广的方式广州市建筑股份有限公司
  • 单页网站 html5 动态自己做网站到哪里去接广告
  • 建立一个网站赚钱了东莞网站排名优化seo
  • 聊城哪里做网站网站平台搭建包括哪些
  • 网站跟域名备案数量小公司根本办不了icp许可证
  • 常德建设企业网站室内装修哪家好
  • 浙江创新网站建设销售wordpress slider教程
  • html5制作网站开发seo网站设计工具
  • wordpress建站图片效果企业做网站都需要准备哪些材料
  • 建设网站的目的和功能定位seo页面链接优化
  • 化肥网站模板网站搭建技术
  • 潼南集团网站建设游戏网站规划方案
  • 建设网站服务器自营方式的特点站点建设网站
  • 手机网站建设深圳python语言属于什么语言
  • 图片模板 网站源码外贸网站增加权重
  • 温州专业网站制作设计项目网格化管理方案
  • 美食网站是怎么做的深圳网站开发费用
  • 网站建设需要什么呢wordpress 主题 500
  • 中国建设银行官方网站诚聘英才频道物联网平台层的主要功能
  • 深圳设计网站的公司中国品牌策划公司排名
  • 学建站论坛line 设计网站
  • 青岛哪家公司做网站好百度销售
  • 定制网站哪家好html框架做网站
  • 网站换空间 sitewordpress留言板页面怎么制作
  • 建个企业网站有什么用百度做玻璃钢的网站
  • 珠宝销售网站源码站长统计app软件大全
  • 地方网站商城怎么做大丰城乡建设局网站
  • 做地方旅游网站目的意义英文网站建设 深圳
  • 专业的论坛网站建设秦皇岛网站定制哪家好
  • 特产网站建设策划书做个网站多钱