概率论与数理统计-概率论-随机变量的数字特征

概率论与数理统计-随机变量的数字特征

随机变量及其概率分布章节,我们讨论了随机变量的分布函数,它完整反映了随机变量(在一定范围内)的概率特性。

然而很多时候,我们不需要或者很难知道随机变量的完整特性,只需要知道它的某些重要指标。 (比如在调查一群人的身高或者某地居民的收入时,我们经常关心这些量的均值或者个体之间的差异。在碰到多个随机变量时,还需要一些指标来反映这些随机变量之间的关系。)

与随机变量密切相关的指标统称为数字特征。重要的数字特征有数学期望、方差、协方差、相关系数以及矩等.

数学期望

离散型随机变量的数学期望

离散型随机变量的数学期望的定义

设离散型随机变量X的概率分布律为\(P\left(X=x_{k}\right)=p\left(x_{k}\right), \quad k=1,2, \cdots\) 如果无穷级数\(\sum_{k=1}^{\infty} x_{k} p\left(x_{k}\right)\)绝对收敛, 则称\(\sum_{k=1}^{\infty} x_{k} p\left(x_{k}\right)\)(离散型)随机变量X的数学期望,简称数学期望或均值, 记作 \(E(X)\),即\(E(X)=\sum_{k=1}^{\infty} x_{k} p\left(x_{k}\right)\)

常见离散型随机变量的数学期望

0-1分布的期望\(E(X)=p\)

设X服从参数为p的两点分布(0-1分布),即\(P(X=0)=1-p, \quad P(X=1)=p, \quad 0<p<1\)\(E(X)=1 \times p+0 \times(1-p)=p\)

二项分布\(X \sim B(n, p)\)的期望\(E(X)=n p\)

证明(方法一):

因为\(X \sim B(n, p)\),所以\(P(X=k)=C_{n}^{k} p^{k}(1-p)^{n-k}, \quad k=0,1,2, \cdots, n\) 则: \(\begin{aligned} E(X) &=\sum_{k=0}^{n} k \mathrm{C}_{n}^{k} p^{k}(1-p)^{n-k}=\sum_{k=0}^{n} \frac{k n !}{k !(n-k) !} p^{k}(1-p)^{n-k} \\ &=n p \sum_{k=1}^{n} \frac{(n-1) !}{(k-1) ![(n-1)-(k-1)] !} p^{k-1}(1-p)^{(n-1)-(k-1)} \\ &=n p \sum_{k=1}^{n} C_{n-1}^{k-1} p^{k-1}(1-p)^{(n-1)-(k-1)} \end{aligned}\)\(m=k-1\), 则: \(\begin{aligned} \sum_{k=1}^{n} \mathrm{C}_{n-1}^{k-1} p^{k-1}(1-p)^{(n-1)-(k-1)} &=\sum_{m=0}^{n-1} \mathrm{C}_{n-1}^{m} p^{m}(1-p)^{(n-1)-m} \\ &=[p+(1-p)]^{n-1} \\ &=1 \end{aligned}\) 从而\(E(X)=n p\)

证明(方法二): 若\(X \sim B(n, p)\),则X可以表示成n个独立的0-1型随机变量的和, 即\(X=X_{1}+X_{2}+\cdots+X_{n}\),其中\(X_{i}=\left\{\begin{array}{ll}1, & \text { 第i次试验中A发生, } \\ 0, & \text { 否则. }\end{array}\right.\)\(i=1,2, \cdots, n\) 根据后面期望的性质:\(E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)\)\(E(X)=E\left(\sum_{i=1}^{n} X_{i}\right)=\sum_{i=1}^{n} E\left(X_{i}\right)=n p\)

几何分布 \(X \sim G(p)\)的期望\(E(X)=\frac{1}{p}\)

因为 \(X \sim G(p),\) 所以\(P(X=k)=(1-p)^{k-1} p, \quad k=1,2, \cdots\)\(E(X)=\sum_{k=1}^{\infty} k(1-p)^{k-1} p=p \sum_{k=1}^{\infty} k(1-p)^{k-1}\)

根据高等数学幂级数的知识,有如下幂级数的和函数: \(\sum_{k=0}^{\infty} x^{k}=\frac{1}{1-x}, \quad|x|<1\) 根据幂级数的逐项可导性质,有: \(\sum_{k=1}^{\infty} k x^{k-1}=\frac{1}{(1-x)^{2}}, \quad|x|<1\)\(x=1-p\),则: \(\sum_{k=1}^{\infty} k(1-p)^{k-1}=\frac{1}{p^{2}}\) 因此\(E(X)=p \sum_{k=1}^{\infty} k(1-p)^{k-1}=\frac{1}{p}\)

泊松分布\(X\sim P(\lambda)\)的期望\(E(X)=\lambda\)

因为\(X\sim P(\lambda)\),则\(P(X=k)=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}, \quad k=0,1,2, \cdots\)\(E(X)=\sum_{k=0}^{\infty} k \frac{\lambda^{k} \mathrm{e}^{-\lambda}}{k !}=\lambda \mathrm{e}^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1) !}=\lambda \mathrm{e}^{-\lambda} \mathrm{e}^{\lambda}=\lambda\)

连续型随机变量的数学期望

连续型随机变量数学期望的定义

设连续型随机变量 \(X\) 的密度函数为 \(f(x) .\) 若积分 \(\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x\) 绝对收敛,则称 \(\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x\)连续型随机变量 \(X\) 的数学期望, 简称期望均值, 记作 \(E(X),\)\(E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x\)

注意:某些分布的数学期望可能不存在。(密度函数不绝对收敛)

常见连续型随机变量的数学期望

均匀分布\(X \sim U[a, b]\)的期望\(E(X)=\frac{a+b}{2}\)

因为\(X \sim U[a, b]\),所以X的密度函数为: \(f(x)=\left\{\begin{array}{ll}\frac{1}{b-a}, & a \leqslant x \leqslant b \\ 0, & \text { 其他. }\end{array}\right.\) 于是: \(E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x=\int_{a}^{b} \frac{x}{b-a} \mathrm{~d} x=\frac{a+b}{2}\)

指数分布\(X \sim e(\lambda)\)的期望\(E(X)=\frac{1}{\lambda}\)

因为\(X \sim e(\lambda)\),所以X的密度函数为\(f(x)=\left\{\begin{array}{ll}\lambda \mathrm{e}^{-\lambda x}, & x \geqslant 0 \\ 0, & x<0\end{array}\right.\) 于是\(E(X)=\int_{-\infty}^{+\infty} x f(x) \mathrm{d} x=\int_{0}^{+\infty} x \lambda \mathrm{e}^{-\lambda x} \mathrm{~d} x=\frac{1}{\lambda}\)

正态分布\(X \sim N\left(\mu, \sigma^{2}\right)\)的期望\(E(X)=\mu\)

因为\(X \sim N\left(\mu, \sigma^{2}\right)\),所以X的密度函数为\(f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}}, \quad-\infty<x<+\infty\) 于是\(E(X)=\int_{-\infty}^{+\infty} x \frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \mathrm{~d} x\)\(t=\frac{x-\mu}{\sigma},\) 则: \(\begin{aligned} E(X) &=\frac{1}{\sqrt{2 \pi}} \int_{-\infty}^{+\infty}(\sigma t+\mu) \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{~d} t \\ &=\frac{\mu}{\sqrt{2 \pi}} \int_{-\infty}^{+\infty} \mathrm{e}^{-\frac{t^{2}}{2}} \mathrm{~d} t \\ &=\mu \end{aligned}\)

随机变量函数的数学期望

随机变量X的函数\(g(X)\)的期望

很多时候需要计算随机变量X的某个函数\(g(X)\)的期望。

方法一:自然会想到先求\(g(X)\)的分布,再按期望的定义来求\(E[g(X)]\).

方法二:但是很多时候,\(g(X)\)的分布并不容易求出,下面的定理给出另一种方法。

定理:设X为一个随机变量,\(g(x)\)为一元函数, 1)如果X为离散型随机变量,分布律为\(P\left(X=x_{k}\right)=p\left(x_{k}\right), \quad k=1,2, \cdots\), 则\(E[g(X)]=\sum_{k=1}^{\infty} g\left(x_{k}\right) p\left(x_{k}\right)\) 2)如果X为连续性随机变量,密度函数为\(f(x)\), 则\(E[g(X)]=\int_{-\infty}^{+\infty} g(x) f(x) \mathrm{d} x\)

这个定理告诉我们,由X的分布即可求出其函数\(g(X)\)的期望,而无需求出\(g(X)\)的分布。

二维随机变量\((X,Y)\)的函数\(g(X,Y)\)的期望

类似一维的情况,有两种方法。

方法一:自然会想到先求\(g(X,Y)\)的分布,再按期望的定义来求\(E[g(X,Y)]\).

方法二:但是很多时候,\(g(X,Y)\)的分布并不容易求出,根据下面的定理,由\((X,Y)\)的分布即可直接求出其函数\(Z=g(X,Y)\)的期望

定理:设\((X,Y)\)为二维随机变量,\(g(x,y)\)为二元函数。 1)如果\((X,Y)\)为二维离散型随机变量,联合分布律为\(P\left(X=x_{i}, Y=y_{j}\right)=p_{i j}, \quad i=1,2, \cdots, \quad j=1,2, \cdots\), 则\(E[g(X, Y)]=\sum_{i=1}^{\infty} \sum_{j=1}^{\infty} g\left(x_{i}, y_{j}\right) p_{i j}\) 2)如果\((X,Y)\)为二维离散型随机变量,联合密度函数为\(f(x,y)\), 则\(E[g(X, Y)]=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) \mathrm{d} x \mathrm{~d} y\)

特别的,我们取\(g(X,Y) = X\)\(g(X,Y)=Y\)。即已知\((X,Y)\)分布或者密度函数时可求\(E(X)\)\(E(Y)\).

可以按照方法二求解:

以二维连续型为例,设联合密度函数为\(f(x,y)\),则: \(E(X)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x f(x, y) \mathrm{d} x \mathrm{~d} y\) \(E(Y)=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} y f(x, y) \mathrm{d} x \mathrm{d} y\)

当然也可以按照方法一求解:

先求X和Y各自的边缘密度\(f_X(x)\)\(f_Y(y)\), 再利用\(E(X)=\int_{-\infty}^{+\infty} x f_{X}(x) \mathrm{d} x\)\(E(Y)=\int_{-\infty}^{+\infty} y f_{Y}(y) \mathrm{d} y\)求解

高维随机变量\((X_1,X_2, \cdots, X_n)\)的函数\(g(X_1,X_2, \cdots, X_n)\)的期望

类似二维的情况,有相同的两种方法。并且有类似的定理存在。

期望的性质

\(E(C)=C\)

设C为常数,则\(E(C)=C\)

\(E(kX)= k E(X)\)

设k为常数,X为随机变量,则\(E(kX)= k E(X)\)

\(E(X+Y)=E(X)+E(Y)\)

对于随机变量X和Y,有\(E(X+Y)=E(X)+E(Y)\)

\(E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)\)

这是上一条的推论:对于n个随机变量\(X_{1}+X_{2}+\cdots+X_{n}\),有\(E\left(X_{1}+X_{2}+\cdots+X_{n}\right)=E\left(X_{1}\right)+E\left(X_{2}\right)+\cdots+E\left(X_{n}\right)\)

随机变量X与Y独立\(\Rightarrow\) \(E(X Y)=E(X) E(Y)\)

设随机变量X和Y独立,则\(E(X Y)=E(X) E(Y)\)

证明: 二维连续型\((X,Y)\)情况(离散型类似可证) 设\((X,Y)\)的联合密度函数为\(f(x,y)\), 边缘密度函数微分别\(f_X(x)\)\(f_Y(y)\), 由于X和Y独立,则\(f(x,y)=f_X(x)f_Y(y)\), 则: \(\begin{aligned} E(X Y) &=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x y f(x, y) \mathrm{d} x \mathrm{~d} y \\ &=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} x y f_{X}(x) f_{Y}(y) \mathrm{d} x \mathrm{~d} y \\ &=\left(\int_{-\infty}^{+\infty} x f_{X}(x) \mathrm{d} x\right)\left(\int_{-\infty}^{+\infty} y f_{Y}(y) \mathrm{d} y\right) \\ &=E(X) E(Y) \end{aligned}\)

\(X_1,X_2, \cdots, X_n\)相互独立\(\Rightarrow\) \(E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)\)

这是上一条的推论:设n个随机变量\(X_1,X_2, \cdots, X_n\)相互独立,则\(E\left(X_{1} X_{2} \cdots X_{n}\right)=E\left(X_{1}\right) E\left(X_{2}\right) \cdots E\left(X_{n}\right)\)

方差

随机变量的期望反应的是随机变量的均值。除了均值之外,人们还常关心随机变量取值的波动性或者稳定性如何。 衡量波动性的一个简单办法是看随机变量每个可能取值与期望值的差距\(|X-E(X)|\),很显然这是一个随机变量。 因此想到用\(|X-E(X)|\)的均值\(E\left[|X-E(X)|\right]\)来反映波动性, 但绝对值在数学上比较难处理,因此实际中使用\(E\left[X-E(X)\right]^2\)反映随机变量波动性的大小,也即反映随机变量稳定性如何,由此引出方差的定义。

方差的定义与常用公式

方差的定义\(D(X)=E\left[X-E(X)\right]^2\)

设X为一随机变量,若\(E\left[X-E(X)\right]^2\)存在,则称\(E\left[X-E(X)\right]^2\)为随机变量X的方差,记为\(D(X)\), 即\(D(X)=E\left[X-E(X)\right]^2\)

注意:随机变量X的方差\(D(X)\)结果是个数值。

方差的常用式\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}\)

证明 利用期望的性质,则 \(\begin{aligned} D(X) &=E[X-E(X)]^{2}=E\left\{X^{2}-2 X E(X)+[E(X)]^{2}\right\} \\ &=E\left(X^{2}\right)-2[E(X)]^{2}+[E(X)]^{2} \\ &=E\left(X^{2}\right)-[E(X)]^{2} \end{aligned}\)

离散型随机变量的方差

设离散型随机变量X的概率分布律为\(P\left(X=x_{k}\right)=p\left(x_{k}\right), \quad k=1,2, \cdots\), 则随机变量X的方差 \(D(X)=E\left[X-E(X)\right]^2 \\=\sum_{i=1}^{\infty}\left[x_{i}-E(X)\right]^{2} p\left(x_{i}\right)\)

也常利用\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}\)来计算某些离散型随机变量的方差。

0-1分布的方差\(D(X)=p(1-p)\)

证明 设X服从参数为p的两点分布(0-1分布),显然\(E(X)=p\), 又\(E\left(X^{2}\right)=1^{2} \times p+0^{2} \times(1-p)=p\), 则\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}=p(1-p)\)

二项分布\(X \sim B(n, p)\)的方差\(D(X)=n p(1-p)\)

证明(要用到后面方差的性质):

我们知道\(X=X_{1}+X_{2}+\cdots+X_{n}\), (参见二项分布\(X \sim B(n, p)\)期望\(E(X)=n p\)的证明方法二) 而0-1分布的方差\(D(X_i)=p(1-p)\), 又\(X_1,X_2, \cdots, X_n\)相互独立, 于是根据\(X_1,X_2, \cdots, X_n\)相互独立\(\Rightarrow\) \(D\left(X_{1}+X_{2}+\cdots+X_{n}\right)=D\left(X_{1}\right)+D\left(X_{2}\right)+\cdots+D\left(X_{n}\right)\)\(D(X)=D\left(\sum_{i=1}^{n} X_{i}\right)=\sum_{i=1}^{n} D\left(X_{i}\right)=n p(1-p)\)

泊松分布\(X\sim P(\lambda)\)的方差\(D(X)=\lambda\)

我们知道泊松分布\(X\sim P(\lambda)\)的期望\(E(X)=\lambda\) 而: \(\begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{\infty} k^{2} \frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}=\sum_{k=1}^{\infty} k \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda} \\ &=\sum_{k=1}^{\infty}[(k-1)+1] \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda} \\ &=\sum_{k=2}^{\infty} \frac{\lambda^{k}}{(k-2) !} \mathrm{e}^{-\lambda}+\sum_{k=1}^{\infty} \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda} \end{aligned}\) 又有\(\sum_{k=1}^{\infty} \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda}=\lambda \cdot\sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1) !} \mathrm{e}^{-\lambda}=\lambda\) 以及\(\sum_{k=2}^{\infty} \frac{\lambda^{k}}{(k-2) !} \mathrm{e}^{-\lambda}=\lambda^{2} \mathrm{e}^{-\lambda} \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2) !}=\lambda^{2} \mathrm{e}^{-\lambda} \mathrm{e}^{\lambda}=\lambda^{2}\) 所以\(E\left(X^{2}\right)=\lambda^{2}+\lambda\)\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}=\lambda\)

连续型随机变量的方差

设连续型随机变量 \(X\) 的密度函数为 \(f(x) .\) 则随机变量X的方差 \(D(X)=\int_{-\infty}^{+\infty}[x-E(X)]^{2} f(x) \mathrm{d} x\)

均匀分布\(X \sim U[a, b]\)的方差\(D(X)=\frac{(b-a)^{2}}{12}\)

\(X \sim U[a, b]\), 前面已求出\(E(X)=\frac{a+b}{2}\), 而\(E\left(X^{2}\right)=\int_{a}^{b} \frac{x^{2}}{b-a} \mathrm{~d} x=\frac{a^{2}+a b+b^{2}}{3}\) 从而\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}=\frac{(b-a)^{2}}{12}\)

指数分布\(X \sim e(\lambda)\)的方差\(D(X)=\frac{1}{\lambda^{2}}\)

因为\(X \sim e(\lambda)\), 前面已经求得\(E(X)=\frac{1}{\lambda}\), 而随机变量函数\(X^2\)的期望\(E\left(X^{2}\right)=\int_{0}^{+\infty} x^{2} \lambda \mathrm{e}^{-\lambda x} \mathrm{~d} x=\frac{2}{\lambda^{2}}\) 从而\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}=\frac{1}{\lambda^{2}}\)

正态分布\(X \sim N\left(\mu, \sigma^{2}\right)\)的方差\(D(X)=\sigma^{2}\)

\(X \sim N\left(\mu, \sigma^{2}\right)\), 前面已求出\(E(X)=\mu\), 而\(E\left(X^{2}\right)=\int_{-\infty}^{+\infty} x^{2} \frac{1}{\sqrt{2 \pi} \sigma} \mathrm{e}^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \mathrm{~d} x\), 令\(t=\frac{x-\mu}{\sigma}\),利用分部积分法容易求得\(E\left(X^{2}\right)=\sigma^{2}+\mu^{2}\)

从而\(D(X)=E\left(X^{2}\right)-[E(X)]^{2}=\sigma^{2}\)

方差的性质

方差就具有如下一些重要性质(设所涉及的随机变量的方差均存在)

\(D(C)=0\)

\(C\) 为一常数, \(X\) 为一随机变量, 则\(D(C)=0\)

\(D(k X)=k^{2} D(X)\)

\(k\) 为一常数, \(X\) 为一随机变量, 则\(D(k X)=k^{2} D(X)\)

证明 \(D(k X)=E\left(k^{2} X^{2}\right)-[E(k X)]^{2}\\=k^{2} E\left(X^{2}\right)-k^{2}[E(X)]^{2}\\=k^{2} D(X)\)

随机变量X与Y相互独立\(\Rightarrow\) \(D(X+Y)=D(X)+D(Y)\)

对随机变量 \(X\)\(Y\) 相互独立, 则\(D(X+Y)=D(X)+D(Y)\)

证明 \(\begin{aligned} D(X+Y) &=E(X+Y)^{2}-[E(X+Y)]^{2} \\ &=E\left(X^{2}+2 X Y+Y^{2}\right)-\left\{[E(X)]^{2}+2 E(X) E(Y)+[E(Y)]^{2}\right\} \\ &=E\left(X^{2}\right)-[E(X)]^{2}+E\left(Y^{2}\right)-[E(Y)]^{2}+2[E(X Y)-E(X) E(Y)] \\ &=D(X)+D(Y)+2[E(X Y)-E(X) E(Y)] \end{aligned}\) X与Y相互独立,由随机变量X与Y独立\(\Rightarrow\) \(E(X Y)=E(X) E(Y)\)可知 \(E(X Y)-E(X) E(Y)=0\), 从而\(D(X+Y)=D(X)+D(Y)\)

随机变量\(X_1,X_2, \cdots, X_n\)相互独立\(\Rightarrow\) \(D\left(X_{1}+X_{2}+\cdots+X_{n}\right)=D\left(X_{1}\right)+D\left(X_{2}\right)+\cdots+D\left(X_{n}\right)\)

这是上一条的推论。

常见随机变量分布的期望与方差汇总

常见离散型随机变量的分布

离散型随机变量的分布期望方差
0-1分布\(E(X)=p\)\(D(X)=p(1-p)\)
二项分布\(X \sim B(n, p)\)\(E(X)=n p\)\(D(X)=n p(1-p)\)
泊松分布\(X\sim P(\lambda)\)\(E(X)=\lambda\)\(D(X)=\lambda\)
几何分布 \(X \sim G(p)\)\(E(X)=\frac{1}{p}\)

常见连续型随机变量的分布

连续型随机变量的分布期望方差
均匀分布\(X \sim U[a, b]\)\(E(X)=\frac{a+b}{2}\)\(D(X)=\frac{(b-a)^{2}}{12}\)
指数分布\(X \sim e(\lambda)\)\(E(X)=\frac{1}{\lambda}\)\(D(X)=\frac{1}{\lambda^{2}}\)
正态分布\(X \sim N\left(\mu, \sigma^{2}\right)\)\(E(X)=\mu\)\(D(X)=\sigma^{2}\)

协方差与相关系数

期望反映了一个随机变量的平均取值, 方差反映了一个随机变量的波动大小。

有时还需要描述两个随机变量之间的相互关系,这就需要引入协方差和相关系数的概念。

协方差的定义

设随机交量 \(X\)\(Y\) 的期望都存在, 且 \(E(X Y)\) 也存在, 我们称\(E[(X-E(X))(Y-E(Y)]]\)\(X\)\(Y\)协方差, 记为 \(\operatorname{Cov}(X, Y),\)\(\operatorname{Cov}(X, Y)=E[(X-E(X))(Y-E(Y))]\)

分析一下协方差的意义: 如果协方差为正,说明\(X-E(X)\)\(Y-E(Y)\)倾向于同时为正或者同时为负,即X大于均值E(X)时,Y往往大于均值E(Y),X与Y变化趋势比较一致。 如果协方差为负,说明\(X-E(X)\)\(Y-E(Y)\)倾向于有相反的变化趋势。 因此,协方差一定程度上反映了两个随机变量之间的联系

除了上面协方差的定义式,协方差的计算也常用公式\(\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)\)

协方差的性质

协方差有如下性质

\(\operatorname{Cov}(X, Y)=\operatorname{Cov}(Y, X)\)

\(\operatorname{Cov}(X, C)=0\)

设C为常数,X为随机变量,则\(\operatorname{Cov}(X, C)=0\)

\(\operatorname{Cov}(a X+b Y, Z)=a \operatorname{Cov}(X, Z)+b \operatorname{Cov}(Y, Z)\)

设a,b为常数,X,Y,Z为随机变量,则\(\operatorname{Cov}(a X+b Y, Z)=a \operatorname{Cov}(X, Z)+b \operatorname{Cov}(Y, Z)\)

\(\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)\)

此公式由定义式变形而来。这条公式也时计算协方差时的常用公式

随机变量X与Y相互独立\(\Rightarrow\) \(\operatorname{Cov}(X, Y)=0\)

这算是上一条的推论: X与Y相互独立,则\(E(X Y)=E(X) E(Y)\), 根据上一条性质\(\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)\) 可知\(\operatorname{Cov}(X, Y)=0\)

\(D(X+Y)=D(X)+D(Y)+2 \operatorname{Cov}(X, Y)\)

相关系数的定义

从协方差的定义可以看出,协方差\(\operatorname{Cov}(X, Y)\)是有量纲的量,它的量纲等于X与Y的乘积。 如果X及Y的量纲改变,那么其数值就会改变,进而协方差\(\operatorname{Cov}(X, Y)\)的数值也会发生较大的变化。 这样用协方差\(\operatorname{Cov}(X, Y)\)来刻画X与Y的关系就不方便了。为了客服这个困难,引进随机变量之间的相关系数的概念。

定义:设随机变量X,Y的方差\(D(X)\)\(D(Y)\)均为正, 称\(\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X) D(Y)}}\)为X与Y的相关系数,记为\(\rho_{XY}\), 即\(\rho_{X Y}=\frac{\operatorname{Cov}(X, Y)}{\sqrt{D(X) D(Y)}}\)

不难验证,X和Y的相关系数是X和Y标准化[^1]后的随机变量的协方差: \(\rho_{X Y}=\operatorname{Cov}\left(\frac{X-E(X)}{\sqrt{D(X)}}, \frac{Y-E(Y)}{\sqrt{D(Y)}}\right)\)

[^ 1]: 注意区分一般的无量纲化操作,以及随机变量的标准化

相关系数的性质

\(\left|\rho_{X Y}\right| \leqslant 1\)

\(\rho_{X Y}\)是随机变量X与Y的相关系数,则\(\left|\rho_{X Y}\right| \leqslant 1\)

\(\left|\rho_{X Y}\right| = 1 \Leftrightarrow Y=aX+b (a \neq 0)\)

\(\rho_{X Y}\)是随机变量X与Y的相关系数,\(\left|\rho_{X Y}\right| = 1\)的充分必要条件是\(P(Y=aX+b)=1, (a \neq 0)\), 且\(\rho_{X Y}=\left\{\begin{array}{ll}1, & a>0 \\ -1, & a<0\end{array}\right.\)

从上面两条性质可以看出,相关系数刻画了随机变量之间的线性相关性; 当\(\rho_{X Y}\)越接近1时,X与Y的正线性相关性越明显;当\(\rho_{X Y}\)越接近-1时,X与Y的负线性相关性就越明显; 当\(\rho_{X Y}\)越接近0时,X与Y的线性相关性就越弱,当\(\rho_{X Y}=0\)我们也称X与Y不相关。

随机变量X与Y相互独立\(\Rightarrow\) \(\rho_{X Y}=0\)

我们知道随机变量X与Y相互独立\(\Rightarrow\) \(\operatorname{Cov}(X, Y)=0\), 从而\(\rho_{X Y}=0\)

注意:\(\rho_{X Y}=0\),并不能得到X与Y独立的结论。

常见二维随机变量的相关系数

\((X,Y)\)服从圆盘均匀分布时的相关系数\(\rho_{X Y}=0\)

二维连续型随机变量\((X,Y)\)服从圆盘\(x^{2}+y^{2} \leqslant 1\)均匀分布时, 联合密度函数为\(f(x, y)=\left\{\begin{array}{ll}\frac{1}{\pi}, & x^{2}+y^{2} \leqslant 1 \\ 0, & \text { 其他. }\end{array}\right.\), 则: \(E(X Y)=\iint_{x^{2}+y^{2} \leqslant 1} \frac{x y}{\pi} \mathrm{d} x \mathrm{~d} y=\frac{1}{\pi} \int_{-1}^{1} \mathrm{~d} x \int_{-\sqrt{1-x^{2}}}^{\sqrt{1-x^{2}}} x y \mathrm{~d} y=0\) \(E(X)=\iint_{x^{2}+y^{2} \leqslant 1} \frac{x}{\pi} \mathrm{d} x \mathrm{~d} y=\frac{1}{\pi} \int_{-1}^{1} \mathrm{~d} x \int_{-\sqrt{1-x^{2}}}^{\sqrt{1-x^{2}}} x \mathrm{~d} y=0\) 同理可得\(E(Y)=0\) 于是\(\operatorname{Cov}(X, Y)=E(X Y)-E(X) E(Y)=0\) 从而\(\rho_{X Y}=0\)

二维正态分布\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\)时的相关系数\(\rho_{X Y}=\rho\)

\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right),\) 上一章二维连续型随机变量的正态分布有结论:若\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\),则\(X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\)。 上一章求随机函数\(Z=X+Y\)的分布还有结论:若\(X \sim N\left(\mu_{1}, \sigma_{1}^{2}\right), Y \sim N\left(\mu_{2}, \sigma_{2}^{2}\right)\),且X与Y独立,则\(X+Y \sim N\left(\mu_{1}+\mu_{2}, \sigma_{1}^{2}+\sigma_{2}^{2}\right)\)。 由这两条结论以及一维正态分布的期望和方差,立即可知: \(E(X)=\mu_{1}, E(Y)=\mu_{2}, D(X)=\sigma_{1}^{2}, D(Y)=\sigma_{2}^{2}\) 于是协方差为: \(\begin{aligned} \operatorname{Cov}(X, Y) &=\frac{\sigma_{1} \sigma_{2}}{2 \pi \sqrt{1-\rho^{2}}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} u_{1} u_{2} \mathrm{e}^{-\frac{u_{1}^{2}-2 \rho u_{1} u_{2}+u_{2}^{2}}{2\left(1-\rho^{2}\right)}} \mathrm{d} u_{1} \mathrm{~d} u_{2} \\ &=\frac{\sigma_{1} \sigma_{2}}{2 \pi \sqrt{1-\rho^{2}}} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} u_{1} u_{2} \mathrm{e}^{-\frac{1}{2}\left[\frac{\left(u_{1}-\rho u_{2}\right)^{2}}{1-\rho^{2}}+u_{2}^{2}\right]} \mathrm{d} u_{1} \mathrm{~d} u_{2} \end{aligned}\) 再作变量代换\(t_{1}=\frac{u_{1}-\rho u_{2}}{\sqrt{1-\rho^{2}}}, t_{2}=u_{2}\),则: \(\begin{aligned} \operatorname{Cov}(X, Y) &=\frac{\sigma_{1} \sigma_{2} \rho}{2 \pi} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} t_{2}^{2} \mathrm{e}^{-\frac{1}{2}\left(t_{1}^{2}+t_{2}^{2}\right)} \mathrm{d} t_{1} \mathrm{~d} t_{2} \\ &=\sigma_{1} \sigma_{2} \rho \end{aligned}\) 从而\(\rho_{X Y}=\rho\)

上面得到了结论:二维正态分布\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\),相关系数\(\rho_{X Y}=\rho\) 而上一章有结论:二维正态分布\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\)中X与Y独立\(\Leftrightarrow\) \(\rho = 0\), 结合可得结论二维正态分布\((X, Y) \sim N\left(\mu_{1}, \mu_{2}, \sigma_{1}^{2}, \sigma_{2}^{2}, \rho\right)\)中X与Y独立\(\Leftrightarrow\) 相关系数\(\rho_{XY} = 0\)

矩与协方差矩阵

随机变量X的k阶原点矩

设X是随机变量,若\(\mu_{k}=E\left(X^{k}\right), \quad k=1,2, \cdots\)存在,则称它为X的k阶原点矩。

随机变量X的k阶中心矩

设X是随机变量,若\(\nu_{k}=E\left[(X-E(X))^{k}\right], \quad k=1,2,3, \cdots\)存在,则称它为X的k阶中心矩。

X的二阶中心矩即为X的方差\(D(X)\)

随机变量X与Y的\(k+l\)阶混合原点矩

设X和Y是随机变量,若\(E\left(X^{k} Y^{l}\right), \quad k, l=1,2, \cdots\)存在,则称它为X与Y的\(k+l\)阶混合原点矩。

随机变量X与Y的\(k+l\)阶混合中心矩

设X和Y是随机变量,若\(E\left[(X-E(X))^{k}(Y-E(Y))^{l}\right], \quad k, l=1,2, \cdots\)存在,则称它为X与Y的\(k+l\)阶混合中心矩。

X和Y的协方差\(\operatorname{Cov}(X, Y)\)就是X和Y的二阶混合中心矩。

协方差矩阵

设n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的二阶混合中心矩(两两的协方差): \(c_{i j}=\operatorname{Cov}\left(X_{i}, X_{j}\right)=E\left[\left(X_{i}-E\left(X_{i}\right)\right)\left(X_{j}-E\left(X_{j}\right)\right)\right], \quad i, j=1,2, \cdots,n\) 都存在, 则称矩阵\(\boldsymbol{C}=\left(\begin{array}{cccc}c_{11} & c_{12} & \cdots & c_{1 n} \\ c_{21} & c_{22} & \cdots & c_{2 n} \\ \vdots & \vdots & & \vdots \\ c_{n 1} & c_{n 2} & \cdots & c_{n n}\end{array}\right)\) 为n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的协方差矩阵

期望向量

设n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的每一个分量\(X_{i}(i=1,2, \cdots,n)\)的期望\(E(X_i)\)都存在, 则称向量\(\mu=\left(\begin{array}{c}\mu_{1} \\ \mu_{2} \\ \vdots \\ \mu_{n}\end{array}\right)=\left(\begin{array}{c}E\left(X_{1}\right) \\ E\left(X_{2}\right) \\ \vdots \\ E\left(X_{n}\right)\end{array}\right)\) 为n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的期望向量。

协方差矩阵的应用:n维正态分布

二维正态分布的矩阵表示法

先回忆二维正态分布:其联合密度函数为: \(\begin{aligned} f(x, y)=& \frac{1}{2 \pi \sigma_{1} \sigma_{2} \sqrt{1-\rho^{2}}} \\ & \times \exp \left\{-\frac{1}{2\left(1-\rho^{2}\right)}\left[\frac{\left(x-\mu_{1}\right)^{2}}{\sigma_{1}^{2}}-2 \rho \frac{\left(x-\mu_{1}\right)\left(y-\mu_{2}\right)}{\sigma_{1} \sigma_{2}}+\frac{\left(y-\mu_{2}\right)^{2}}{\sigma_{2}^{2}}\right]\right\} \end{aligned}\)

我们想把指数部分写成矩阵形式, 首先我们记\(\boldsymbol{x}=\left(\begin{array}{l}x_{1} \\ x_{2}\end{array}\right)\) 有了期望向量协方差矩阵的概念, 我们可得\((X_1,Y)\)的期望向量与协方差: \(\boldsymbol{\mu}=\left(\begin{array}{l}\mu_{1} \\ \mu_{2}\end{array}\right)\)\(\boldsymbol{C}=\left(\begin{array}{ll}c_{11} & c_{12} \\ c_{21} & c_{22}\end{array}\right)=\left(\begin{array}{cc}\sigma_{1}^{2} & \rho \sigma_{1} \sigma_{2} \\ \rho \sigma_{1} \sigma_{2} & \sigma_{2}^{2}\end{array}\right)\) 而C的行列式,逆矩阵分别为: \(|\boldsymbol{C}|=\sigma_{1}^{2} \sigma_{2}^{2}\left(1-\rho^{2}\right)\)\(C^{-1}=\frac{1}{\sigma_{1}^{2} \sigma_{2}^{2}\left(1-\rho^{2}\right)}\left(\begin{array}{cc}\sigma_{2}^{2} & -\rho \sigma_{1} \sigma_{2} \\ -\rho \sigma_{1} \sigma_{2} & \sigma_{1}^{2}\end{array}\right)\) 通过简单计算可知\((X_1,Y)\)的联合密度可写成 \(f\left(x_{1}, x_{2}\right)=(2 \pi)^{-\frac{2}{2}}|C|^{-\frac{1}{2}} \exp \left\{-\frac{1}{2}(x-\mu)^{\mathrm{T}} C^{-1}(x-\mu)\right\}\)

n维正态分布的矩阵表示法

沿用上述形式,可以给出n维正态分布的定义:

若有n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的联合密度函数维: \(f\left(x_{1}, x_{2}, \cdots, x_{n}\right)=(2 \pi)^{-\frac{n}{2}}|C|^{-\frac{1}{2}} \exp \left\{-\frac{1}{2}(x-\mu)^{\mathrm{T}} C^{-1}(x-\mu)\right\}\) 其中\(\boldsymbol{x}=\left(\begin{array}{c}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{array}\right)\)\(\mu\)\(C\) 分别表示 \(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\) 的期望向量及协方差矩阵, 则称n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)服从n维正态分布

服从n维正态分布的随机变量也称n维正态随机变量。

n维正态分布的性质

  1. n维正态随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的每个分量\(X_{i}(i=1,2, \cdots,n)\)都服从一维正态分布。
  2. n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)服从n维正态分布\(\Leftrightarrow\)n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)的任意线性组合\(\sum_{i=1}^{n} l_{i} X_{i}\)服从一维正态分布(其中 \(l_{1}, l_{2}, \cdots, l_{n}\) 不全为零 )
  3. 若n维随机变量\(\left(X_{1}, X_{2}, \cdots, X_{n}\right)\)服从n维正态分布,则“\(X_{1}, X_{2}, \cdots, X_{n}\)相互独立”等价于“\(X_{1}, X_{2}, \cdots, X_{n}\)两两不相关”

随机变量的特征函数

参考:https://zh.wikipedia.org/wiki/%E7%89%B9%E5%BE%81%E5%87%BD%E6%95%B0_(%E6%A6%82%E7%8E%87%E8%AE%BA) 参考:https://www.zhihu.com/question/23686709/answer/376439033

随机变量的分布函数和特征函数一体两面。特征函数是随机变量的分布的不同表示形式。

随机变量的特征函数是对其分布函数做傅里叶变换得到的函数,是用傅里叶变换的方法,从频域(概率论中对应的是矩)的角度分析(随机变量的概率)函数。(从这个角度讲,特征函数应该放到概率分布章节,但是这里要用到矩的知识,所以放到了这一章。

特征函数的定义

在概率论中, 任何随机变量的特征函数 (缩写:ch.f, 复数形式: ch.f’s) 完全定义了它的概率分布。在实直线上, 它由以下公式给出, 其中 \(X\) 是任何具有该分布的随机变 量: \[ \varphi_{X}(t)=\mathrm{E}\left(e^{i t X}\right) \] 其中t是一个实数, i是虚数单位, E表示期望值。

如果\(F_X\)累积分布函数,那么特征函数由黎曼-斯蒂尔切斯积分给出: \[ \mathrm{E}\left(e^{i t X}\right)=\int_{-\infty}^{\infty} e^{i t x} d F_{X}(x) \] 在概率密度函数 \(f_{X}\) 存在的情况下 \(,\) 该公式就变为 \[ \mathrm{E}\left(e^{i t X}\right)=\int_{-\infty}^{\infty} e^{i t x} f_{X}(x) d x \] 如果X是一个向量值随机变量,我们便取自变量t为向量,tX数量积

特征函数的意义

随机变量\(X\)的特征函数定义为:\(\varphi_{X}(t)=\mathrm{E}\left(e^{i t X}\right)\)

为什么这么定义呢?

从随机变量的数字特征来看

首先,\(e^{i t X}\)的泰勒展开为:\(e^{i t X}=1+\frac{i t X}{1}-\frac{t^{2} X^{2}}{2 !}+\cdots+\frac{(i t)^{n} X^{n}}{n !}\) 代入可以推出: \(\begin{aligned} \varphi_{X}(t) &=E\left[e^{i t X}\right] \\ &=E\left(1+\frac{i t X}{1}-\frac{t^{2} X^{2}}{2 !}+\cdots+\frac{(i t)^{n} X^{n}}{n !}\right) \\ &=E(1)+E\left(\frac{i t X}{1}\right)-E\left(\frac{t^{2} X^{2}}{2 !}\right)+\cdots+E\left(\frac{(i t)^{n} X^{n}}{n !}\right) \end{aligned}\) \(\LARGE=1+\frac{i t \overbrace{E[X]}^{\text{一阶矩}}}{1}-\frac{t^{2} \overbrace{E\left[X^{2}\right]}^{\text{二阶矩}}}{2 !}+\cdots+\frac{(i t)^{n} \overbrace{E\left[X^{n}\right]}^{\text{n阶矩}}}{n !}\)

说明特征函数包含了分布函数的所有矩,也就是包含了分布函数的所有(数字)特征。

我们对概念做定义时,是通过抽象出其必须的属性,把具有相同属性的内容当作同一个概念。比如,有生命的物体,称为生物;有生命的、可以运动的、可观测的生物,称为动物;哺乳的动物称为哺乳动物。 数学分析中,根据泰勒定理把各阶导数都相同的两个函数认为是同一个函数。 类似的,概率论中,两个随机变量的各种指标/数字特征(期望、方差、偏态、各阶矩)都相同,它们应该是同一种分布。

从傅里叶变换(傅里叶分析)的角度来看

随机变量\(X\)的特征函数定义为:\(\varphi_{X}(t)=\mathrm{E}\left(e^{i t X}\right)\)

如果\(F_X\)累积分布函数,那么特征函数由黎曼-斯蒂尔切斯积分给出: \[ \mathrm{E}\left(e^{i t X}\right)=\int_{-\infty}^{\infty} e^{i t x} d F_{X}(x) \] 在概率密度函数 \(f_{X}\) 存在的情况下 \(,\) 该公式就变为 \[ \mathrm{E}\left(e^{i t X}\right)=\int_{-\infty}^{\infty} e^{i t x} f_{X}(x) d x \] 而对概率密度函数 \(f_{X}\) 作傅里叶变换的公式为: \[ F(t)=\int_{-\infty}^{\infty} f_X(x) e^{-i t x} d x \] 可见随机变量\(X\)特征函数\(\varphi_{X}(t)\) 随机变量\(X\)概率密度函数 \(f_{X}\)的傅里叶变换 共轭\[ \varphi_{X}(t)=\overline{F(t)} \] 也就是说,特征函数\(\varphi_{X}(t)\)是密度函数\(f_X(x)\)的共轭傅里叶变换,这里共轭影响不大可以看作傅里叶变换来理解。

即特征函数相当于在频域分析分布函数。

注:

傅里叶级数\(\tilde{x}(t)=\sum_{k=-\infty}^{+\infty} a_{k} e^{j k w_{0} t}\) 其中\(a_{k}=\frac{1}{T} \int_{-T / 2}^{T / 2} \tilde{x}(t) e^{-j k \omega_{0} t} d t\)

傅里叶级数适用于周期信号中,将周期推广到\(\infty\),就变成了傅里叶变换。

傅里叶变换(结论):\(x(t)==\frac{1}{2 \pi} \int_{-\infty}^{+\infty} X(j \omega) e^{j \omega t} d \omega(7)\) 其中,傅里叶级数的包络\(X(j \omega)=\int_{-\infty}^{+\infty} x(t) e^{-j \omega t} d t\)

进一步阅读:无穷级数章节。 进一步阅读:傅里叶级数和傅里叶变换是什么关系? 进一步阅读:傅里叶级数和傅里叶变换是什么关系? - Jason Huang的回答 - 知乎 进一步阅读:如何通俗地理解傅立叶变换?

特征函数的意义的章节内容参考了马同学的博客:https://www.matongxue.com/madocs/742/,以下是他网页的嵌入iframe显示: