概率论与数理统计-概率论-大数定律与中心极限定理
概率论与数理统计-大数定律与中心极限定理
本章介绍概率统计理论中非常重要的两类定理:大数定律和中心极限定理。
大数定律讨论的是一列随机变量的均值的收敛性问题。(独立、同期望、同方差的随机变量列
中心极限定理考虑的是一列随机变量和的极限分布问题。(独立、同分布的随机变量列
基本概念
依概率收敛
设
切比雪夫不等式
切比雪夫不等式的提出
19世纪俄国数学家切比雪夫研究统计规律中,论证并用标准差表达了一个不等式,这个不等式具有普遍的意义,被称作切比雪夫定理,其大意是:
任意一个数据集中,位于其平均数m个标准差范围内的比例(或部分)总是至少为1-1/m2, 其中m为大于1的任意正数。对于m=2,m=3和m=5有如下结果:
- 所有数据中,至少有3/4(或75%)的数据位于平均数2个标准差范围内。
- 所有数据中,至少有8/9(或88.9%)的数据位于平均数3个标准差范围内。
- 所有数据中,至少有24/25(或96%)的数据位于平均数5个标准差范围内 。
换言之, 与平均相差k个标准差以上的值,数目不多于1/k^2
- 与平均相差2个标准差以上的值,数目不多于1/4
- 与平均相差3个标准差以上的值,数目不多于1/9
- 与平均相差5个标准差以上的值,数目不多于1/25
切比雪夫不等式的数学描述
说法一: 设随机变量X的数学期望为
说法二: 设随机变量X的数学期望为
说法三:(取
证明: 以下仅证明X是连续型随机变量的情形(X是离散型随机变量类似): 设随机变量X的密度函数为
大数定律
参考:https://zh.wikipedia.org/wiki/%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B 参考:https://baike.baidu.com/item/%E5%88%87%E6%AF%94%E9%9B%AA%E5%A4%AB%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B 参考: 参考:https://baike.baidu.com/item/%E8%BE%9B%E9%92%A6%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B 参考:https://zhuanlan.zhihu.com/p/77312635 参考:https://baike.baidu.com/item/%E5%BC%BA%E5%A4%A7%E6%95%B0%E5%AE%9A%E5%BE%8B
大数定律告诉我们能用频率近似代替概率;能用样本均值近似代替总体均值(算数平均值接近期望值)。 样本数量越多,则其算术平均值就有越高的概率接近期望值。
总结来看,大数定理将属于数理统计的平均值和属于概率论的期望联系在了一起。

大数定律还有强大数定律和弱大数定律之分,这里不做讨论.
下面介绍大数定律的几个版本.
切比雪夫大数定律(切比雪夫定理):揭示样本均值和真实期望的关系
设随机变量序列
切比雪夫大数定律的特殊情形
(设随机变量序列
有另一种说法: 设
证明 取随机变量
由 , 由切比雪夫不等式可得 令 即得
在所给条件下(独立,同期望方差), n个随机变量
物理上,我们经常对某个物理量重复测量n次,并且利用n次测量值的算数平均作为该物理量真实值
将该公式应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
特别需要注意的是,切比雪夫大数定理并未要求
伯努利大数定律:揭示概率与频率的关系
设事件A在一次试验中发生的概率为p (0<p<1), 将试验独立进行n次,用
证明 构造一列随机变量
,如下: 于是 根据切比雪夫大数定律的特殊情形, 可得
从定义概率的角度,揭示了概率与频率的关系,当N很大的时候,事件A发生的概率等于A发生的频率。
辛钦大数定律:揭示算术平均值和数学期望的关系
设一列随机变量
中心极限定理
通俗的讲,中心极限定理表述的是如下结论:在一定条件下,大量相互独立随机变量的和(标准化和)的分布近似为正态分布。
这里我们主要讨论中心极限定理的两种基本形式。
林德伯格-莱维(Lindeberg-Levy)中心极限定理
说法一:
设
说法二:
设随机变量
证明 记
的特征函数为 根据傅里叶变换样本空间中的褶积(卷积)在特征函数空间变为乘积, 因此 的特征函数为 .由于 故 .因此 所以 由于 是连续函数, 它对应的分布函数为 因此由逆极限定理知 定理证毕。
棣莫弗-拉普拉斯(De Moivre-Laplace)中心极限定理
该中心极限定理是历史上最早的中心极限定理。
表述一:
设随机变量
表述二:(很明显有
设随机变量
表述三:
若
该中心极限定理表明,正态分布是二项分布的极限分布。即当n充分大时,可用正态分布近似计算二项分布的概率。它指出,参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。