当前位置：网站首页>【概率论】正态分布的由来——从大一同学的视角出发

【概率论】正态分布的由来——从大一同学的视角出发

2022-08-09 11:15:00 【临淮郡人】

数学系大佬勿喷，本文以非数同学的视角出发

0.启发与思考

正态分布平时常常遇到，无论是在概率论中的“中心极限定理”，还是平时在学习ML中遇到的“高斯混合模型”，或者是在深度学习中，常常将一些数据假设为正态分布的情况。我们平时可能由于知到中心极限定理，因此默认正态分布是一个很好的分布。但是，这为什么不能是平均分布呢？二项分布呢？泊松分布？或者是其它抽样分布？

接下来我们将简要探讨正态分布的由来：

1. 背景

我们要对某个真实值 $\mu$ 进行 $n$ 次观测，得到了观测值 $x_1,x_2,...,x_n$ ，我们需要根据这n次观测推断 $\mu$ ，我们一般会怎么办呢？
试想我们进行物理实验的时候，对测量某个物体的长度，我们可能会测多次，然后取平均值。即我们认为 $\bar{\mu}={\sum_{i=1}^n x_i \over n}$ 可以用来估计真实值 $\mu$ 。背后，我们为什么会通过去取平均值来估计真实值呢？为什么不是通过求“几何平均”、“调和平均”或者“平方平均”呢？
p.s. 很多同学其实并没有意识到什么是 “调和平均”，试想一下并联电阻，是不是就明白啦？另外通过作图也可以理解几个平均数的含义。
事实上，我们假设观测误差 $e_i=x_i-\mu$ 是“关于0对称”的；换句话说 $e_i=c$ 与 $e_i=-c$ 的概率是相同的。
此外，我们学过了线性代数。在最小二乘的意义下， $\over n }\sum_{i=1}^n (x_i-\bar{\mu})^2$ ，可见当 $\bar{\mu}={\sum_{i=1}^n x_i \over n}$ 时，上述的误差代价最小，我们可以认为真实值是 $\bar{\mu}$

2. 步入正题：

我们学过极大似然估计的思想，即我们可以认为当前出现的事件，具有较大的概率。由于各次观测是独立的，因此 $n$ 次观察的误差情况 $(x_1-\mu,x_2-\mu,...,x_n-\mu)$ 的联合概率 $P$ 可以写为 $\prod^n_{i=1}p(x_i-\mu)$ ，其中 $p (x)$ 是关于随机变量误差 $e$ 的概率密度函数。其中，我们要求 $\mu$ 的估计值 $\bar{\mu}$ 。即当 $\mu$ 的估计值取为 $\bar{\mu}$ 时， $P$ 能取最大值。我们根据背景部分的假设，可得

p(x)关于x=0对称
事实上，我们还可以给一个较强的假设方便计算：
p(x)有二阶连续的导函数

以下我们将从极大似然法的角度，证明:p(x)为高斯函数，即 $p(x)=e^{a(x-b)^2}的形式$

2.1. 从极大似然法的角度出发

考虑极大似然函数
$L(\mu)=logP=\sum_{i=1}^nlog(p(x_i-\mu))$ 其取最大值的情况。其取最大值的必要条件是:
${\partial L(\mu) \over \partial \mu } | _{\mu=\bar{\mu}}=0$
其中：
${\partial L(\mu) \over \partial \mu } | _{\mu=\bar{\mu}} =- \sum_{i=1}^n {p'(x_i-\bar\mu) \over p(x_i-\bar\mu)}$

2.2 变形，讨论函数性质：

设 $g(x)={p'(x_i-\mu) \over p(x_i-\mu)}$ ，则我们由1中的表达式，可得到:
$\sum_{i=1}^ng(x_i-\bar{\mu})=0$
其中
$\bar{\mu}={\sum_{i=1}^n x_i \over n}$
这是因为我们假设n次观察的误差应该是均匀的，即 $\sum_{i=1}^n (x_i-\bar\mu)=0$

以下我们将讨论函数 $g (x)$ 的性质，以便于求出 $p (x)$ 的性质。

我们利用数学归纳法的思想，先考虑简单情况：n=2的情况，此时我们根据2中的表达式，可以得到 $g (x)$ 满足
$g (x) + g (- x) = 0,$
即g(x)是奇函数；
我们再考虑n=3的情况,此时:
$g(x_1-\mu)+g(x_2-\mu)+g(x_3-\mu)=0$
其中 $x_1,x_2,x_3$ 都是观测所得的，具有任意性，又由于 $g$ 为奇函数，因此得到以下式子
$g (x) + g (y) = g (x + y)$
这个函数方程被称为柯西函数方程。其实凭借着同学们大一所学到高等数学知识，已经可以求解 $g (x)$ 形式。
由于我们假设 $p (x)$ 有二阶连续导函数，因此 $g (x)$ 的函数也是连续的（其实这个条件有点强了）

2.3 具体求解

首先由 $2 g (0) = g (0)$ ，得 $g (0) = 0$ ;
其次，由于 $2 g (x) = g (2 x)$ ，我们对 $x$ 求导得到：
$g^{'} (x) = g^{'} (2 x)$
则由于 $g^{'} (x)$ 连续，我们可得：
$g'(x)=g'(2^nx)=g'({1 \over 2^n }x)\\ \lim\limits_{n\to \infty} g'(x)=\lim\limits_{n\to \infty} g'({1 \over 2^n }x) =g'(\lim\limits_{n\to \infty} {1 \over 2^n }x)=g'(0)$
可见 $g^{'} (x) = g^{'} (0) = a$ ， $a$ 为常数，则 $g (x) = a x$ 。现在我们已知 ${p'(x_i) \over p(x_i)}=ax$

此即微分方程： $\over y}dy$
我们可以得到 $\over 2}ax^2+C$ ，即 $p(x)=Ce^{ {1 \over 2}ax^2}$ ，其中C为待定系数，a为 $g^{'} (0)$ 为常数。
根据p(x)的归一性， $\int_{-\infty}^{+\infty}p(x)dx=1$
又由于我们知到（升维变为二维积分后可得）:
$I(a)=\int_{-\infty}^{+\infty} e^{ {a \over 2}x^2}dx=\sqrt{2 \pi \over a}$
可得到 $C=\sqrt{a \over 2 \pi}$
如果我们令 $\over \sigma ^2}$ ,就得到了我们一般的均值为 $0$ 的正态分布形式：
${1\over {\sqrt {2 \pi}} \sigma}e^{x^2 \over {2 \sigma ^2}}$
得之。