概率论与数理统计-概率论-随机变量及其分布

概率论与数理统计-随机变量及其分布

(一维)随机变量与分布函数

随机变量的概念

随机变量的引入

对于不同的随机现象, 有些随机现象的结果(样本点)往往是一个某个数量指标,可以用实数来表示(比如色子掷出点数); 有些随机现象的结果(样本点)没有数量特征,只标记某种属性(比如硬币抛出正反面,公司某年是盈是亏)。

对于没有数量特征的样本点,我们可以人为引入数字来标记结果。 这样,每个随机现象的结果(或者说每次随机试验的结果),都有一个实数与之对应。

随机变量的定义

设试验的样本空间为\(\Omega\),如果对于每个样本点\(\omega \in \Omega\),都有一个实数\(X(\omega)\)与之对应,则称\(X(\omega)\)为随机变量。

注意:随机变量\(X(\omega)\)常简写为X 。但是,随机变量实际上是个因变量,对应的自变量是样本空间中的样本点。 注意:随机变量常用大写英文字母X,Y,Z等,或者希腊字母\(\xi,\eta,\zeta\)等表示。

落在某范围的随机变量可以表示随机事件

有了随机变量,随机事件(样本空间的子集)就可以用随机变量的区间来描述。 即随机事件可以用随机变量落在某个范围内来表示。

例如,抛掷硬币3次,用X表示正面朝上的次数, 随机事件”至少有两次正面朝上“可以写为\(\{\omega | X(\omega) \ge 2\}\),一般直接简写为\(\{ X \ge 2\}\)

随机变量的分布函数

在随机事件章节,我们讨论过随机事件发生的概率。 我们已经知道随机事件可以用随机变量落在某个范围来表示, 则我们可以用随机变量描述事件的概率,即随机变量落在某个范围内的概率,引入随机变量的(概率)分布函数。

随机变量的分布函数定义

设X是一个随机变量,称\(F(x)=P(X \le x) , -\infty < x < +\infty\)为随机变量X的分布函数。

注意:\(F(x)\)的定义域是实数集\(R\),对于每个实数x,\(F(X)\)表示随机变量小于等于x的概率,显然\(0\le x \le 1\)

随机变量的分布函数的性质

下面列出的是任何随机变量的分布函数的共性。之后还会单独讨论离散型随机变量和连续性随机变量的特性。

\(F(-\infty)=\lim_{-\infty} F(x) = 0, F(+\infty)=\lim_{+\infty} F(x) = 1\)
\(P(a<X\le b) = F(b) - F(a)\)

因为\(\{a < X \le b\} = \{ X \le b\} - \{X \le a\}\) 所以随机变量X落在区间\((a,b]\)的概率为:\(P(a<X\le b) = P(b) - P(a) = F(b) - F(a)\)

\(a<b\),则\(F(a)\le F(b)\)

对任意实数\(a<b\),有\(F(a)\le F(b)\),即\(F(x)\)单调不减

\(F(a+) = F(a)\)

对任意实数\(a \in R\),有\(F(a+) = F(a)\),即\(F(x)\)右连续。 其中\(F(a+) = \lim_{x\rightarrow a+} F(x)\)

\(P(X<a) =\lim_{x\rightarrow a-} F(x) = F(a-)\)
\(P(X=a)=F(a)-F(a-)\)

(一维)离散型随机变量及其分布

离散型随机变量

所有可能的取值是有限多个或者可列多个的随机变量称为离散型随机变量。比如多次抛硬币抛出正面朝上的次数、网站一天的访问次数等; 与之相对,连续性随机变量的取值会充满某个实数区间。比如产品的使用寿命等。

离散型随机变量的概率分布

设离散型随机变量X的所有可能取值为\(x_1,x_2,\cdots,\)而X取各个可能值的概率为\(P(X=x_k) = p(x_k), k = 1,2, \cdots\),称为离散型随机变量X的概率分布或者概率分布律(列),简称概率分布律(列)。

离散型随机变量的概率分布的性质

\(p(x_k) \ge 0, k=1,2,\cdots\)
\(\sum_k p(x_k) = 1\)

离散型随机变量X的分布函数为\(F(x) = P(X \le x) = \sum_{x_k \le x} p(x_k)\)

常见的离散型随机变量的分布

0-1分布\(X\sim B\)

随机现象:只有两种可能结果的随机现象。用随机变量X来描述随机现象的结果。

随机变量X取值:只可能取0或1两个值 随机变量X的(概率)分布律:\(P(X=0) = 1 - p, P(X=1) = p\)

举例:比如如检查结果是否合格,新生儿性别,贷款能否按时归还等

二项分布\(X\sim B(n,p)\)

随机现象/试验:n重伯努利试验(n重独立重复试验)。 设每次试验中事件A发生的概率为p,用随机变量X来表示n重伯努利试验中A发生的次数。

随机变量X取值:\(k=0,1,\cdots,n\) 随机变量X的(概率)分布律:\(P(X=k) = C_n^k p^k (1-p)^{n-k}\) 称随机变量X服从参数为n和p的二项分布,记为\(X\sim B(n,p)\)

泊松分布\(X\sim P(\lambda)\)

随机现象/试验:n重伯努利试验(n重独立重复试验), 设每次试验中事件A发生的概率为p,用随机变量X来表示n重伯努利试验中A发生的次数。 要求n比较大,np趋于一个合适的值(\(n\rightarrow +\infty, np \rightarrow \lambda\)

随机变量X取值:\(k=0,1,\cdots\) 随机变量X的(概率)分布律:\(P(X=k) = \frac{\lambda^k}{k!} e^{-\lambda}\) 称随机变量X服从参数为n和p的二项分布,记为\(X\sim P(\lambda)\)

应用:一段离散时间内电话呼叫次数、车站到达人数、网站访问人数、放射性物质放射粒子数等

当n比较大,np趋于一个合适的值(\(n\rightarrow +\infty, np \rightarrow \lambda\),一般\(\lambda \le 10\))时,随机变量X的分布由二项分布自然变为泊松分布, 即\(\lim_{n\rightarrow +\infty, np \rightarrow \lambda} C_n^k p^k (1-p)^{n-k} = \frac{\lambda^k}{k!} e^{-\lambda}\) 这个规律叫做泊松定理。泊松定理及其证明

超几何分布\(X\sim H(n,M,N)\)

随机现象/试验:古典概率模型的无放回抽样, 用随机变量X表示抽出的次品/奖品数

随机变量X取值:\(k=0,1,\cdots, n\) 随机变量X的(概率)分布律:\(P(X=k) = \frac{C_M^k C_{N-M}^{n-k}}{C_N^n}\) 其中n,M,N都是正整数,且\(n\le N, M \le N\),称X服从超几何分布,记为\(X\sim H(n,M,N)\)

应用:常用在产品的质量检测中。例如,一批产品共N个,其中有M个次品。从中任取n个,则取出的n个产品中的次品数X服从超几何分布

性质:设随机变量X服从超几何分布(\(X\sim H(n,M,N)\)), 则当\(N\rightarrow \infty\)时,X近似服从二项分布\(X\sim B(n,p)\)。 即\(\frac{C_M^k C_{N-M}^{n-k}}{C_N^n} \approx C_n^k p^k (1-p)^{n-k}\) (\(N\rightarrow \infty\))

说明当一批产品的总数N很大,而抽取的样品数n远小于N时,不放回抽样(取出的次品数服从超几何分布)与有放回抽样(取出的次品数服从二项分布)差别不大

几何分布\(X\sim G(p)\)

随机现象/试验:n重伯努利试验(n重独立重复试验), 设每次试验中事件A发生的概率为p,直到事件A发生为止,用随机变量X来表示所需的试验次数。

随机变量X取值:\(k=0,1,\cdots, n\) 随机变量X的(概率)分布律:\(P(X=k) = (1-p)^{k-1} p\) 称随机变量X服从参数为p的几何分布,记为\(X\sim G(p)\)

(一维)连续型随机变量及其分布

连续型随机变量、概率分布及其密度函数

连续型随机变量与其概率分布

介绍离散型随机变量时,有简单说明连续性随机变量,它的取值会充满某个实数区间。比如产品的使用寿命等。

与离散型随机变量的分布函数相一致,连续型随机变量的分布函数\(F(x) = P(X\le x)\).

概率密度函数

连续型随机变量X的取值会充满某个区间,可以引入概率密度函数的概念:

设随机变量X的分布函数为\(F(x)\),若存在可积函数\(f(x) \ge 0\)使得对于任意实数x,都有概率分布函数\(F(x) = \int_{-\infty}^x f(t)dt\),则称X为连续型变量\(f(x)\)称为X的概率密度函数,简称密度函数,常记作\(X\sim f(x)\)

直观的,连续型随机变量X的分布函数等于区间\((-\infty,x)\)上曲线\(y=f(x)\)之下的阴影部分面积

连续型随机变量的分布函数与密度函数的性质

\(F(+\infty) = \int_{-\infty}^{+\infty} f(x) dx = 1\)
对任意实数\(a<b\)\(P(a<X\le b) = \int_a^b f(x) dx\)
\(F(x)\)处处连续,且对于任意实数a有\(P(X=a) = 0\)

推广:\(P(a\le X \le b) = P(a \le X <b) = P( a< X <b)\)

\(f(x)\)连续,则\(F^\prime(x) = f(x)\)

常见的连续型随机变量及其分布与密度函数

均匀分布\(X\sim U(a,b)\)

若连续型随机变量X的密度函数为 \(f(x)=\left\{\begin{array}{ll}\frac{1}{b-a}, & a \leqslant x \leqslant b \\ 0, & \text { 其他. }\end{array}\right.\) 则称X服从区间\([a,b]\)上的均匀分布,记作\(X\sim U(a,b)\)

对应的随机变量X的分布函数为 \(F(x)=\left\{\begin{array}{ll}0, & x<a \\ \frac{x-a}{b-a}, & a \leqslant x \leqslant b \\ 1, & x>b\end{array}\right.\)

应用:实际中,很多观测取正(或精确导小数点后某一位)所产生的误差,零件的实际尺寸和规定尺寸之间的误差都常用均匀分布来描述

指数分布\(X\sim e(\lambda)\)

指数分布的定义

设连续型随机变量X的密度函数为 \(f(x)=\left\{\begin{array}{ll}\lambda \mathrm{e}^{-\lambda x}, & x \geqslant 0 \\ 0, & \text { 其他 }\end{array}\right.\),其中\(\lambda >0\)为常数, 则称X服从参数为\(\lambda\)的指数分布,记作\(X\sim e(\lambda)\)

对应的X的分布函数为 \(F(x)=\left\{\begin{array}{ll}1-\mathrm{e}^{-\lambda x}, & x \geqslant 0 \\ 0, & \text { 其他. }\end{array}\right.\) 应用:是常用的”寿命“分布之一,比如电子产品或者元件的使用寿命,也常用来描述间隔时间、服务时间等的分布,如相邻两次电话铃响的间隔时间,在某个服务系统中接受服务的时间等。

指数分布的无记忆性

指数分布具有所谓的的”无记忆性“: 即对任意的\(s,t\ge 0\)\(P(X>s+t \mid X>t)=P(X>s)\)

正态分布\(X\sim N(\mu,\sigma^2)\)

正态分布的概念

设随机变量X的密度函数为 \(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}\)\(-\infty<x<+\infty\),其中\(\mu, \sigma(\sigma>0)\)为常数, 则称X服从参数为\(\mu\)\(\sigma\)的正态分布或者高斯分布,记为\(X\sim N(\mu,\sigma^2)\)

正态分布的密度函数特点: 密度函数\(y=f(x)\)的图像呈钟形曲线, \(y=f(x)\)关于直线\(x=\mu\)对称, \(y=f(x)\)\(x=\mu\)处取得最大值\(\frac{1}{\sqrt{2 \pi} \sigma}\) \(y=f(x)\)\(x=\mu\pm\sigma\)处出现两个拐点, x轴是\(y=f(x)\)的水平渐近线。

\(X\sim N(\mu,\sigma^2)\),正态分布函数为 \(F(x)=\frac{1}{\sqrt{2 \pi} \sigma} \int_{-\infty}^{x} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \mathrm{d} x\)

应用:正态分布在理论和应用中都占有重要的地位。实际中很多随机变量都服从或近似服从正态分布。比如人的身高、体重、测量误差、考试成绩、气体分子的运动位移等等。

正态分布的性质
标准正态分布

\(\mu=0,\sigma=1\)时,\(N(0,1)\)称为标准正态分布。 标准正态分布\(N(0,1)\)的密度函数分别用\(\varphi(x)\)\(\Phi(x)\)表示: \(\varphi(x)=\frac{1}{\sqrt{2 \pi}} \mathrm{e}^{-\frac{x^{2}}{2}}\) \(\Phi(x)=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{x} \mathrm{e}^{-\frac{x^{2}}{2}} \mathrm{d} x\)

标准正态分布的密度函数\(\varphi(x)\)关于y轴对称

标准正态分度密度函数\(\varphi(x)\)关于y轴对称,不难得到对应分布函数\(\Phi(x)\)的性质: \(\Phi(0)=\frac{1}{2}\) \(\Phi(-x)=1-\Phi(x)\)

一般正态分布与标准正态分布的分布函数之间的关系

设随机变量X服从一般正态分布:\(X\sim N(\mu,\sigma^2)\),分布函数为\(F(x)\), 则有\(F(x)=\Phi\left(\frac{x-\mu}{\sigma}\right)\)

(一维)随机变量函数的分布

在很多问题中,我们关心的某个随机变量并不容易直接观测或者统计出来,但它却和某个(某些)容易观测统计的随机变量密切相关。 比如我们容易观测一批圆形零件的直径X,所以X的分布情况容易获得,而我们关心的时面积\(Y=\pi\left(\frac{X}{2}\right)^2\)的分布。

下面讨论的内容就是如何由已知的随机变量X的分布,求出X的某个函数\(Y=g(X)\)的分布(Y也是随机变量)

离散型随机变量函数的分布

若X时离散型随机变量(即X的取值至多时可列多个),那么它的函数\(Y=g(X)\)显然也是离散型随机变量(因为Y的取值也是至多是可列多个)。由X的分布律不难求出Y的分布律。

连续型随机变量函数的分布

一般来说,求连续型随机变量X的函数\(Y=g(X)\)的分布,都是由分布函数的定义求出Y的分布函数\(F_Y(y) = P(Y\le y)\); 这需要将\(Y\le y\)化成与它等价的关于X的不等式,再由X的分布即可求出\(F_Y(y)\); 若\(F_Y(y)\)可导,则可求出Y的密度函数。

X的线性函数\(Y=aX+b\)的一般解法

以一个例子来说明:

例1:已知X的密度函数为\(f_X (x)\),求\(Y=3X+5\)的密度函数\(f_Y(y)\)

先求分布函数: \(\begin{aligned} F_{Y}(y) &=P(Y \leqslant y)=P(3 X+5 \leqslant y) \\ &=P\left(X \leqslant \frac{y-5}{3}\right) \\ &=F_{X}\left(\frac{y-5}{3}\right) \end{aligned}\)

于是Y的密度函数为: \(f_{Y}(y)=F_{Y}^{\prime}(y)=\frac{1}{3} f_{X}\left(\frac{y-5}{3}\right)\)

已知X的密度函数\(f_X(x)\),求\(Y=aX+b\)的密度函数

设X的密度函数\(f_X(x)\),则\(Y=aX+b\)的密度函数为 \(f_{Y}(y)=\frac{1}{|a|} f_{X}\left(\frac{y-b}{a}\right)\)

已知\(X\sim N(\mu,\sigma^2)\),求\(Y=aX+b\)的密度函数

\(X\sim N(\mu,\sigma^2),Y=aX+b \quad(a\neq0)\),则\(Y\sim N(a\mu+b,a^2 \mu^2)\)

特别的\(X\sim N(\mu,\sigma^2)\)\(Y=\frac{X-\mu}{\sigma}\),则\(Y=\frac{X-\mu}{\sigma} \sim N(0,1)\)

\(Y=g(X)\)在定义域处处可导且不变号时的密度函数

设随机变量X的密度函数为\(f_X, -\infty<x<+\infty\), 函数\(g(x)\)在定义域D内处处可导且恒有\(g^\prime(x)>0\)(或恒有\(g^\prime(x)<0\)), 则\(Y=g(X)\)是连续型随机变量,其密度函数为\(f_{Y}(y)=\left\{\begin{array}{ll}f_{X}(h(y))\left|h^{\prime}(y)\right|, & \alpha<y<\beta \\ 0, & \text { 其他 }\end{array}\right.\)

n维随机变量及其分布

前面我们讨论了单个随机变量及其分布。然而也有许多实际问题中往往同时关心多个随机变量。

比如观察高考同学的数学、物理、英语成绩,就有三个随机变量; 调查某地居民的收入和消费状况,则由两个随机变量; 研究n只股票的价格情况,需要n个随机变量等。

n维随机变量及其联合分布函数

n维随机变量\((X_1,X_2,\cdots,X_n)\)

设随机现象的样本空间为\(\Omega\),有n个定义在\(\Omega\)上的随机变量\(X_1,X_2,\cdots,X_n\),常把\((X_1,X_2,\cdots,X_n)\)称为n为随机变量(也称n维随机向量)。 我们重点讨论二维随机变量,其结果不难推广到n维的情况

二维随机变量\((X,Y)\)的(联合)分布函数的定义

\((X,Y)\)是二维随机变量, 称二元函数\(F(x, y)=P(X \leqslant x, Y \leqslant y), \quad x, y \in \mathbf{R}\)\((X,Y)\)的联合分布函数。

对每个\((x,y)\in R^2\)\(F(x,y)\)表示事件\(\{X\le x\}\)与事件\(\{Y\le y\}\)同时发生的概率

二维随机变量的联合分布函数的性质

\(F(x,y)\)\((X,Y)\)的联合分布函数,则有如下性质

二维随机变量\((X,Y)\)落在区域\((a,b]\times(c,d]\)内的概率

\(\begin{aligned} &P(a<X \leqslant b, c<Y \leqslant d)\\=& P(X \leqslant b, Y \leqslant d)-P(X \leqslant b, Y \leqslant c) -P(X \leqslant a, Y \leqslant d)+P(X \leqslant a, Y \leqslant c) \\=& F(b, d)-F(b, c)-F(a, d)+F(a, c) \end{aligned}\)

固定x(或y),\(F(x,y)\)关于y(或x)单调不减
\(F(-\infty, y)=\lim _{x \rightarrow-\infty} F(x, y)=0\)
\(F(x,-\infty)=\lim _{y \rightarrow-\infty} F(x, y)=0\)
\(F(+\infty,+\infty)=\lim _{x \rightarrow+\infty \atop y \rightarrow+\infty} F(x, y)=1\)
可由联合分布函数\(F(x, y)\)求出X和Y各自的分布函数(边缘分布函数)

X的(边缘)分布函数: \(\begin{aligned} F_{X}(x)=P(X \leqslant x) &=P(X \leqslant x, Y \leqslant+\infty) \\ &=F(x,+\infty) \end{aligned}\)

Y的(边缘)分布函数: \(\begin{aligned} F_{Y}(y)=P(Y \leqslant y) &=P(X \leqslant+\infty, Y \leqslant y) \\ &=F(+\infty, y) \end{aligned}\)

n维随机变量\((X_1,X_2,\cdots,X_n)\)的(联合)分布函数\(F\left(x_{1}, x_{2}, \cdots, x_{n}\right)\)

对任意实数\(x_1,x_2,\cdots,x_n\),函数\(F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=P\left(X_{1} \leqslant x_{1}, X_{2} \leqslant x_{2}, \cdots, X_{n} \leqslant x_{n}\right)\)称为n维随机变量\((X_1,X_2,\cdots,X_n)\)的联合分布函数

二维离散型随机变量及其分布

二维离散型随机变量及其分布

若X和Y都是离散型随机变量,则称\((X,Y)\)二维离散型随机变量

\((X,Y)\)为二维离散型随机变量,X的所有可能取值为\(x_1,x_2,\cdots\),Y的所有可能取值为\(y_1,y_2,\cdots\), 将\(P(X=x_i,Y=y_i) = p_{ij}, \quad i,j = 1,2,\cdots\)称为二维离散型随机变量\((X,Y)\)(联合)概率分布,或者联合概率分布律(列),简称联合分布律(列)。

二维离散型随机变量的联合分布律也常用联合分布表来描述。

二维离散型随机变量概率分布性质

\(p_{ij} \ge 0\)

\(\sum_i {\sum_j {p_{ij}}} = 1\)

可由离散型联合分布求出X和Y各自的分布律(边缘分布)

X的分布律为: \(P\left(X=x_{i}\right)=\sum_{j} P\left(X=x_{i}, Y=y_{j}\right)=\sum_{j} p_{i j} \stackrel{\text { 记为 }}{=} p_{i}\)

Y的分布律为: \(P\left(Y=y_{j}\right)=\sum_{i} P\left(X=x_{i}, Y=y_{j}\right)=\sum_{i} p_{i j} \stackrel{\text { 记为 }}{\Longrightarrow} p_{\cdot j}\)

n维连续型随机变量及其分布

二维及n维连续型随机变量及其分布和密度函数定义

设二维随机变量\((X,Y)\)的联合分布函数为\(F(x,y)\), 若存在可积函数\(f(x,y)\ge 0\), 使得对于任意实数x,y,都有\(F(x, y)=\int_{-\infty}^{x} \int_{-\infty}^{y} f(s, t) \mathrm{d} s \mathrm{~d} t\), 则称\((X,Y)\)二维连续型随机变量\(f(x,y)\)称为\((X,Y)\)联合密度函数,记作\(f(x,y)\sim f(x,y)\)

类似的,可以定义n维连续性随机变量,以及n维随机变量的联合密度函数\(f(x_1,x_2,\cdots,x_n)\)

二维连续型随机变量的分布函数和密度函数的性质

\(F(+\infty,+\infty)=\)\(\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x \mathrm{~d} y=1\)
\(P((X, Y) \in G)=\iint_{G} f(x, y) \mathrm{d} x \mathrm{~d} y\)

对任何二维平面上的区域G,有\(P((X, Y) \in G)=\iint_{G} f(x, y) \mathrm{d} x \mathrm{~d} y\),其中\(\iint_G\)表示在区域G上作二重积分。

由此性质,我们可以求出二维连续型随机变量\((X,Y)\)落在平面上某个区域的概率。

\(F_{x y}^{\prime \prime}(x, y)=f(x, y)\)

\(F_{x y}^{\prime \prime}(x, y)=f(x, y)\),其中\(F_{x y}^{\prime \prime}(x, y)=f(x, y)\)表示\(F(x,y)\)的二阶混合偏导数。

由(二维连续随机变量的)联合密度函数求得X和Y各自的(边缘)分布函数与(边缘)密度函数

由(二维连续型随机变量的)联合密度函数 可求得X和Y各自分布函数(又叫边缘分布函数)与各自的密度函数(又叫边缘密度函数)

根据联合分布求边缘分布的方法

X的(边缘)分布函数为: \(\begin{aligned} F_{X}(x) &=F(x,+\infty) \\ &=\int_{-\infty}^{x} \int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x \mathrm{~d} y \\ &=\int_{-\infty}^{x}\left[\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y\right] \mathrm{d} x \end{aligned}\)

因此X的(边缘)密度函数为: \(f_{X}(x)=\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} y\)

同理可得Y的(边缘)密度函数为: \(f_{Y}(y)=\int_{-\infty}^{+\infty} f(x, y) \mathrm{d} x\)

n维连续型随机变量的分布函数和密度函数的性质

大部分是二维情况的简单推广。部分略。

由(n维连续随机变量的)联合密度函数求得X和Y各自的(边缘)密度函数

设n维连续型随机变量\((X_1,X_2,\cdots,X_n)\)的密度函数为\(f(x_1,x_2,\cdots,x_n)\), 则可以计算每个\(X_i\)的分布函数(也叫边缘密度函数)。 以\(X_1\)为例,它的(边缘)密度函数为\(f_{X_{1}}\left(x_{1}\right)=\int_{-\infty}^{+\infty} \cdots \int_{-\infty}^{+\infty} f\left(x_{1}, x_{2}, \cdots, x_{n}\right) \mathrm{d} x_{2} \cdots \mathrm{d} x_{n}\)

几种特殊(常见)的二维两虚型随机变量的分布

二维连续型随机变量的均匀分布

设G是\(xOy\)面上的有界区域,面积为A。 若二维连续型随机变量\((X,Y)\)的联合密度函数为: \(f(x, y)=\left\{\begin{array}{ll}\frac{1}{(b-a)(d-c)}, & a \leqslant x \leqslant b, c \leqslant y \leqslant d \\ 0, & \text { 其他. }\end{array}\right.\) 则称\((X,Y)\)服从区域G上的均匀分布

二维连续型随机变量的正态分布

若二维连续型随机变量\((X,Y)\)的联合密度函数为: \(\begin{aligned} f(x, y)=& \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \\ & \times \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \end{aligned}\) \(-\infty<x<+\infty,-\infty<y<+\infty\) 其中\(\mu_{1}, \mu_{2}, \sigma_{1}, \sigma_{2}, \rho\)都是常数,且\(\sigma_{1}>0, \sigma_{2}>0,-1<\rho<1\) 则称\((X,Y)\)服从参数为\(\mu_{1}, \mu_{2}, \sigma_{1}, \sigma_{2}, \rho\)的二维正态分布,记为\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\)

可以求出X,Y各自的密度函数(边缘密度函数): \(f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma_{1}} e^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}}, \quad-\infty<x<+\infty\) \(f_{Y}(y)=\frac{1}{\sqrt{2 \pi} \sigma_{2}} e^{-\frac{\left(y-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}}, \quad-\infty<y<+\infty\)

可以看出若\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\),则\(X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\)。 即二维正态分布的边缘分布为对应的一维正态分布。 关于参数\(\rho\)的意义将在协方差和相关系数章节介绍。

随机变量的独立性

事件与概率章节我们讨论了随机事件之间的独立性。 而用落在特定区域的随机变量可以表示随机事件。

下面我们讨论随机变量之间的独立性。

二维随机变量\((X,Y)\)中随机变量X与Y独立的定义

设二维随机变量\((X,Y)\)的分布函数为\(F(x,y)\),X和Y各自的分布函数为\(F_X(x)\)\(F_Y(y)\). 若对任意的实数x,y有\(F(x,y)=F_X(x) F_Y(y)\), 则称X与Y独立

由分布函数的定义知\(F(x,y)=F_X(x) F_Y(y)\)可以写成\(P(X\le x, Y \le y) = P(X\le x) P(Y \le y)\) 因此X与Y独立是指对于任意实数x,y,事件\(\{X\le x\}\)和事件\(\{Y\le y\}\)独立。 由此可看出随机变量的独立性由事件的独立性引申而来。

二维离散型随机变量\((X,Y)\)中X与Y独立的等价条件

如果\((X,Y)\)为二维离散型随机变量,X和Y的取值分别为\(x_1,x_2,\cdots\)\(y_1,y_2,\cdots\), 则X与Y独立\(\Leftrightarrow\)对于任意的\(x_i,y_j\),有\(P(X = x_i, Y= y_i) = P(X= x_i) P(Y= y_j)\)

二维连续型随机变量\((X,Y)\)中X与Y独立的等价条件

如果\((X,Y)\)为二维连续型随机变量,联合密度函数为\(f(x,y)\),边缘密度函数为\(f_X(x)\)\(f_Y(y)\) 则X与Y独立\(\Leftrightarrow\) \(f(x,y) = f_X(x) f_Y(y)\)

二维正态分布\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\)中X与Y独立\(\Leftrightarrow\) \(\rho = 0\)

证明 \(\Leftarrow\)的证明: 设\(\rho = 0\),则二维正态分布的联合密度函数化为: \(\begin{aligned} f(x, y) &=\frac{1}{2 \pi \sigma_{1} \sigma_{2}} \exp \left\{-\frac{1}{2}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \\ &=\frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \cdot \frac{1}{\sqrt{2 \pi} \sigma_{2}} \mathrm{e}^{-\frac{\left(y-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}} \\ &=f_{X}(x) f_{Y}(y) \end{aligned}\) 则X与Y独立。 \(\Rightarrow\)的证明: 设X与Y独立,则\(f(x, y)=f_{X}(x) f_{Y}(y)\),又: \(\begin{aligned} f(x, y)=& \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \\ & \times \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \end{aligned}\) \(f_{X}(x) f_{Y}(y)=\frac{1}{\sqrt{2 \pi} \sigma_{1}} \mathrm{e}^{-\frac{\left(x-\mu_{1}\right)^{2}}{2 \sigma_{1}^{2}}} \cdot \frac{1}{\sqrt{2 \pi} \sigma_{2}} \mathrm{e}^{-\frac{\left(y-\mu_{2}\right)^{2}}{2 \sigma_{2}^{2}}}\)\(x=\mu_1,y=\mu_2\)计算,易得\(\rho = 0\)

n维随机变量相互独立的定义

设n维随机变量\((X_1,X_2,\cdots,X_n)\)的联合分布函数\(F\left(x_{1}, x_{2}, \cdots, x_{n}\right)\), \(X_i\)的分布函数(也叫边缘分布函数)为\(F_{X_i} (x_i)\), 若\(F\left(x_{1}, x_{2}, \cdots, x_{n}\right)=F_{X_{1}}\left(x_{1}\right) F_{X_{2}}\left(x_{2}\right) \cdots F_{X_{n}}\left(x_{n}\right)=\prod_{i=1}^{n} F_{X_{i}}\left(x_{i}\right)\), 则称\(X_1,X_2,\cdots,X_n\)相互独立。

n维随机变量相互独立的性质

设n维随机变量\((X_1,X_2,\cdots,X_n)\)相互独立, 把它们任意分成两组,比如\(X_{1}, X_{2}, \cdots, X_{k}\)作为一组,\(X_{k+1}, \cdots, X_{n}\)作为一组。 由\(X_{1}, X_{2}, \cdots, X_{k}\)作任意运算得到随机变量记为Y, 由\(X_{k+1}, \cdots, X_{n}\)作任意运算的到随机变量记为Z, 则Y与Z相互独立。

二维随机变量函数的分布

前面我们讨论过如何由X的分布求X的某个函数\(g(X)\)的分布。 对于二维随机变量\((X,Y)\),,我们也常考虑如何根据\((X,Y)\)的联合分布获得由X和Y构造的某个函数\(g(X,Y)\)的分布。

下面重点讨论如何求\(X+Y\)的分布,至于其他函数可按同样的思路去分析。

\(Z=X+Y\)的分布

离散型二维随机变量\((X,Y)\),求随机函数\(Z=X+Y\)的分布

\((X,Y)\)为二维离散型随机变量,X的所有可能取值为\(x_1,x_2,\cdots\),Y的所有可能取值为\(y_1,y_2,\cdots\)\(P(X=x_i,Y=y_i) = p_{ij}, \quad i,j = 1,2,\cdots\)是二维离散型随机变量\((X,Y)\)的(联合)概率分布

显然\(Z=X+Y\)也是离散型随机变量。设Z的可能取值为\(z_1,z_2,\cdots\), 则\(P(Z= z_k) = P(X+Y = z_k) = \sum_i P(X=x_i, Y=z_k - x_i)\) 或者\(P\left(Z=z_{k}\right)=\sum_{j} P\left(X=z_{k}-y_{j}, Y=y_{j}\right)\)

X与Y独立, 则\(P\left(Z=z_{k}\right)=\sum_{i} P\left(X=x_{i}\right) P\left(Y=z_{k}-x_{i}\right)\) 或者\(P\left(Z=z_{k}\right)=\sum_{j} P\left(X=z_{k}-y_{j}\right) P\left(Y=y_{j}\right)\)

连续型二维随机变量\((X,Y)\),求随机函数\(Z=X+Y\)的分布

为了求\(Z=X+Y\)的密度函数,仍然是先求分布函数,再求导。

连续型二维随机变量\((X,Y)\)的联合密度函数为\(f(x,y)\), 则Z的分布函数为 \(\begin{aligned} F_{Z}(z) &=P(Z \leqslant z)=P(X+Y \leqslant z) \\ &=\iint_{x+y \leqslant z} f(x, y) \mathrm{d} x \mathrm{~d} y \end{aligned}\) 其中积分区域为二维平面上所有满足\(x+y\le z\)的点\((x,y)\)组成的区域,即直线\(x+y=z\)的左下方区域。

将二重积分化为累次积分\(F_{Z}(z)=\int_{-\infty}^{+\infty} \mathrm{d} x \int_{-\infty}^{z-x} f(x, y) \mathrm{d} y\) 两边对z求导,得z得密度函数为\(f_{Z}(z)=\int_{-\infty}^{+\infty} f(x, z-x) \mathrm{d} x\) 同理(化为另一种累次积分)最终得\(f_{Z}(z)=\int_{-\infty}^{+\infty} f(z-y, y) \mathrm{d} y\)

X与Y独立, 则\(f_{Z}(z)=\int_{-\infty}^{+\infty} f_{X}(x) f_{Y}(z-x) \mathrm{d} x\) 或者\(f_{Z}(z)=\int_{-\infty}^{+\infty} f_{X}(z-y) f_{Y}(y) \mathrm{d} y\)

可证明: 若\(X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\),且X与Y独立,则\(X+Y \sim N\left(\mu_{1}+\mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right)\) 并可推广到更一般得情形: 设\(X_{1}, X_{2}, \cdots, X_{n}\)相互独立,且\(X_{i} \sim N\left(\mu_{i}, \sigma_{i}^{2}\right), c_{1}, c_{2}, \cdots, c_{n}\)是不全为0的数, 则\(\sum_{i=1}^{n} c_{i} X_{i} \sim N\left(\sum_{i=1}^{n} c_{i} \mu_{i}, \sum_{i=1}^{n} c_{i}^{2} \sigma_{i}^{2}\right)\)

最大值\(max(X,Y)\)与最小值\(min(X,Y)\)的分布

设随机变量X与Y独立,分布函数分别为\(F_X(x)\)\(F_Y(y)\)

最大值\(Z=max(X,Y)\)的分布

在X与Y独立的前提下

\(\begin{aligned} F_{Z}(z) &=P(Z \leqslant z)=P(\max (X, Y) \leqslant z)=P(X \leqslant z, Y \leqslant z) \\ &=P(X \leqslant z) P(Y \leqslant z)=F_{X}(z) F_{Y}(z) \end{aligned}\)

最小值\(Z=min(X,Y)\)的分布

在X与Y独立的前提下

\(\begin{aligned} F_{Z}(z) &=P(Z \leqslant z)=P(\min (X, Y) \leqslant z) \\ &=1-P[\min (X, Y)>z] \\ &=1-P(X>z, Y>z) \\ &=1-P(X>z) P(Y>z) \\ &=1-[1-P(X \leqslant z)][1-P(Y \leqslant z)] \\&=1-[1-F_X(z)][1-F_Y(z)] \end{aligned}\)

推广到n维随机变量的最大值与最小值的分布

\(X_{1}, X_{2}, \cdots, X_{n}\)相互独立\(X_i\)的分布函数为\(F_i(x) \quad (i= 1,2,\cdots,n)\), \(X_{1}, X_{2}, \cdots, X_{n}\)的最大值\(max(X_{1}, X_{2}, \cdots, X_{n})\)的分布函数为\(F_{\max }(z)=\prod_{i=1}^{n} F_{i}(z)\) \(X_{1}, X_{2}, \cdots, X_{n}\)的最小值\(min(X_{1}, X_{2}, \cdots, X_{n})\)的分布函数为\(F_{\min }(z)=1-\prod_{i=1}^{n}\left[1-F_{i}(z)\right]\)

条件分布简介

在事件与概率章节,我们讨论了条件概率。有了随变量,我们可以进一步讨论条件分布。

二维离散型随机变量\((X,Y)\)情形下的条件分布

设有二维离散型随机变量\((X,Y)\), 其联合分布函数为\(P(X=x_i,Y=y_i) = p_{ij}, \quad i,j = 1,2,\cdots\)

X和Y各自的分布律(边缘分布律)为: X的分布律为:\(P\left(X=x_{i}\right)=\sum_{j} P\left(X=x_{i}, Y=y_{j}\right)=\sum_{j} p_{i j} \stackrel{\text { 记为 }}{=} p_{i}\) Y的分布律为:\(P\left(Y=y_{j}\right)=\sum_{i} P\left(X=x_{i}, Y=y_{j}\right)=\sum_{i} p_{i j} \stackrel{\text { 记为 }}{\Longrightarrow} p_{\cdot j}\)

\(p_j>0\),由条件概率公式可得 \(P\left(X=x_{i} \mid Y=y_{j}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(Y=y_{j}\right)}=\frac{p_{i j}}{p_{ j}}, \quad i=1,2, \cdots\) 上式称为在\(Y=y_i\)条件下随机变量X的条件分布律

同理设\(p_i>0\),由条件概率公式可得 \(P\left(Y=y_{j} \mid X=x_{i}\right)=\frac{P\left(X=x_{i}, Y=y_{j}\right)}{P\left(X=x_{i}\right)}=\frac{p_{i j}}{p_{i}}, \quad j=1,2, \cdots\) 上式称为在\(X=x_i\)条件下随机变量Y的条件分布律

二维连续型随机变量\((X,Y)\)情形下的条件分布

设有二维连续型随机变量\((X,Y)\), 因为对于任意的实数x和y,事件\(\{X=x\}\)和事件\(\{Y=y\}\)的概率都是0,所以不能像离散型那样直接用条件概率公式得到条件分布。 下面我们用取极限的方法导出二维连续型随机变量的条件分布。

\((X,Y)\)是二维连续型随机变量, 给定实数y,设对于任意\(\epsilon>0\),有\(P(y-\epsilon<Y<y+\epsilon)>0\) 若对于任意实数x,极限\(\lim _{\epsilon \rightarrow 0^{+}} P(X \leqslant x \mid y-\epsilon<Y<y+\epsilon)=\lim _{\epsilon \rightarrow 0^{+}} \frac{P(X \leqslant x, y-\epsilon<Y<y+\epsilon)}{P(y-\epsilon<Y<y+\epsilon)}\)存在, 则称此极限值为在条件\(Y=y\)下,随机变量X的条件分布函数,记为\(F_{X \mid Y}(x \mid y)\)\(P(X \leqslant x \mid Y=y)\)

\((X,Y)\)的联合分布函数为\(F(x,y)\),联合密度函数为\(f(x,y)\),边缘分布函数为\(F_X(x)\)\(F_Y(y)\),边缘密度函数为\(f_X(x)\)\(f_Y(y)\)。 若在点\((x,y)\)处,\(f(x,y)\)\(F_Y(y)\)连续,则: \(\begin{aligned} F_{X \mid Y}(x \mid y) &=\lim _{\epsilon \rightarrow 0^{+}} \frac{P(X \leqslant x, y-\epsilon<Y<y+\epsilon)}{P(y-\epsilon<Y<y+\epsilon)} \\ &=\lim _{\epsilon \rightarrow 0^{+}} \frac{F(x, y+\epsilon)-F(x, y-\epsilon)}{F_{Y}(y+\epsilon)-F_{Y}(y-\epsilon)} \\ &=\lim _{\epsilon \rightarrow 0^{+}} \frac{[F(x, y+\epsilon)-F(x, y-\epsilon)] / 2 \epsilon}{\left[F_{Y}(y+\epsilon)-F_{Y}(y-\epsilon)\right] / 2 \epsilon} \\ &=\frac{\partial F(x, y)}{\partial y} / \frac{\mathrm{d} F_{Y}(y)}{\mathrm{d} y} \end{aligned}\) 因为: \(\frac{\partial F(x, y)}{\partial y}=\frac{\partial}{\partial y}\left(\int_{-\infty}^{x} \int_{-\infty}^{y} f(s, t) \mathrm{d} s \mathrm{~d} t\right)=\int_{-\infty}^{x} f(s, y) \mathrm{d} s\) \(\frac{\mathrm{d} F_{Y}(y)}{\mathrm{d} y}=f_{Y}(y)\) 所以在条件\(Y=y\)下,随机变量X的条件分布函数为: \(F_{X \mid Y}(x \mid y)=\frac{1}{f_{Y}(y)} \int_{-\infty}^{x} f(s, y) \mathrm{d} s\)

在条件\(Y=y\)下,随机变量X的条件密度函数为: \(f_{X \mid Y}(x \mid y)=\frac{\mathrm{d}}{\mathrm{d} x}\left(\frac{1}{f_{Y}(y)} \int_{-\infty}^{x} f(s, y) \mathrm{d} s\right)=\frac{f(x, y)}{f_{Y}(y)}\)

同理,在条件\(X=x\)下,随机变量Y的条件分布函数为: \(F_{Y \mid X}(y \mid x)=\frac{1}{f_{X}(x)} \int_{-\infty}^{y} f(x, t) \mathrm{d} t\) 随机变量Y的条件密度函数为: \(f_{Y \mid X}(y \mid x)=\frac{f(x, y)}{f_{X}(x)}\)