网站建设 制作教程 pdf,阿里云可以建设多个网站,wordpress 相对路径,呼和浩特网站建设信息1. 模型概述 对于收集到的数据(xi,yi)(x_i,y_i)(xi,yi)#xff0c;建立线性回归模型yiθTxiεi(1)y_i\theta^{^T} x_i \varepsilon_i (1)yiθTxiεi(1) 需要估计的参数为θT\theta^{^T}θT#xff0c;我们的目的是让估计的参数θT\theta^{^T}θT和xix_ixi…1. 模型概述 对于收集到的数据(xi,yi)(x_i,y_i)(xi,yi)建立线性回归模型yiθTxiεi(1)y_i\theta^{^T} x_i \varepsilon_i (1)yiθTxiεi(1) 需要估计的参数为θT\theta^{^T}θT我们的目的是让估计的参数θT\theta^{^T}θT和xix_ixi组合后得到的估计值y^i\hat{y}_iy^i与实际值yiy_iyi越接近越好也就是随机误差项εi\varepsilon_iεi越小越好。
2. 模型求解 由于假设模型的误差项是服从独立同分布独立数据之间互相不影响同分布保证模型使用于某一类数据的高斯分布标准正态分布1即ϵ∼N(0,σ2)\epsilon \sim N(0, \sigma^2)ϵ∼N(0,σ2)则其概率密度函数为 p(ϵi)12πσexp(−εi22σ2)(2)p(\epsilon_i)\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{\varepsilon_i^2}{2\sigma^2})(2)p(ϵi)2πσ1exp(−2σ2εi2)(2) 对1式进行变形则有εiyi−θTxi\varepsilon_iy_i-\theta^{^T} x_iεiyi−θTxi将其带入2式得 p(yi∣xi,θ)12πσexp(−(yi−θTxi)22σ2)p(y_i|x_i,\theta)\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})p(yi∣xi,θ)2πσ1exp(−2σ2(yi−θTxi)2) 因为我们的目的是让求解得出的参数θ\thetaθ和和xix_ixi组合后得到的估计值y^iθTxi\hat{y}_i\theta^{^T} x_iy^iθTxi是真实值yiy_iyi的概率越大越好也就是让这个概率越大越好。 由于以上只是单个的样本数据假设我们有mmm个样本数据样本之间互相独立则所有的样本的概率等于单个样本的概率的乘积我们将所有样本的概率记为似然函数L(θ)L(\theta)L(θ)则 L(θ)∏i0m12πσexp(−(yi−θTxi)22σ2)L(\theta)\prod \limits_{i0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})L(θ)i0∏m2πσ1exp(−2σ2(yi−θTxi)2)
由于多个式子相乘难以求解我们可利用对数将其转化为加法。两边同时取对数得到对数似然函数lnL(θ)lnL(\theta)lnL(θ), lnL(θ)ln∏i0m12πσexp(−(yi−θTxi)22σ2)lnL(\theta)ln\prod \limits_{i0}^m\frac{1}{\sqrt{2\pi}\sigma }exp(-\frac{(y_i-\theta^{^T} x_i)^2}{2\sigma^2})lnL(θ)lni0∏m2πσ1exp(−2σ2(yi−θTxi)2) 即 lnL(θ)mln12πσ−1σ212∑i1m(yi−θTxi)2lnL(\theta)mln\frac{1}{\sqrt{2\pi}\sigma }-\frac{1}{\sigma^2}\frac{1}{2}\sum_{i1}^m(y_i-\theta^{^T} x_i)^2lnL(θ)mln2πσ1−σ2121i1∑m(yi−θTxi)2 要对上述式子求最大值则相当于对12∑i1m(yi−θTxi)2\frac{1}{2}\sum_{i1}^m(y_i-\theta^{^T} x_i)^221∑i1m(yi−θTxi)2求最小值我们将其记为J(θ)J(\theta)J(θ)并取名为目标函数则目标函数为 J(θ)12∑i1m(yi−θTxi)2J(\theta)\frac{1}{2}\sum_{i1}^m(y_i-\theta^{^T} x_i)^2J(θ)21i1∑m(yi−θTxi)2 那么求解这个目标函数所使用的方法就是最小二乘法最小二乘法的代数法解法就是对θi\theta_iθi求偏导数令偏导数为0再解方程组得到θi\theta_iθi的估计值。矩阵法比代数法要简洁下面主要讲解下矩阵法解法。 由于
J(θ)12∑i1m(yi−θTxi)212∑i1m(θTxi−yi)212Xθ−Y)T(Xθ−Y)J(\theta)\frac{1}{2}\sum_{i1}^m(y_i-\theta^{^T} x_i)^2\frac{1}{2}\sum_{i1}^m(\theta^{^T} x_i-y_i)^2\frac{1}{2}X\theta-Y)^{^T}(X\theta-Y)J(θ)21i1∑m(yi−θTxi)221i1∑m(θTxi−yi)221Xθ−Y)T(Xθ−Y) 我们需要对其求偏导∂J(θ)∂θ12∂(θTXTXθ−θTXTY−YTXθYTY)∂θ12(2XTXθ−2XTY)\frac{\partial J(\theta)}{\partial \theta}\frac{1}{2}\frac{\partial (\theta^{^T}X^{^T}X\theta-\theta^{^T}X^{^T}Y-Y^{^T}X\thetaY^{^T}Y)}{\partial \theta}\frac{1}{2}(2X^{^T}X\theta-2X^{^T}Y)∂θ∂J(θ)21∂θ∂(θTXTXθ−θTXTY−YTXθYTY)21(2XTXθ−2XTY)令其等于0得θ^(XTX)−1XTY\hat \theta( X^{^T}X)^{-1}X^{^T}Yθ^(XTX)−1XTY 这里需要用到矩阵求导的公式2. 在了解正态分布之前我们需要先了解一个概念——概率分布。概率分布是指经过大量的重复试验将随机事件的所有可能的出现结果的次数分布记录下来并在坐标系中做出一条曲线这条曲线就是数据的概率分布曲线由概率分布曲线可以估算变量的概率。正态分布就是一种常见的概率分布它的概率分布曲线是一个钟形曲线生活中大量的变量都服从正态分布例如人群的身高、鞋码、学生成绩等。正态分布只依赖于数据的两个特征均值和方差。标准正态分布的均值为0方差为σ2\sigma^2σ2. ↩︎ ∂XTA∂A∂ATX∂XA,∂XTAX∂XAXATX\frac{\partial X^{^T} A }{\partial A}\frac{\partial A^{^T} X }{\partial X}A, \frac{\partial X^{^T} A X}{\partial X}AX A^{^T} X∂A∂XTA∂X∂ATXA,∂X∂XTAXAXATX ↩︎