《概率入门 联合分布(Joint Distribution )》 4.1 联合分布与独立

Office365版本 2025-08-04 21:38:54 阅读: 4778

通常,随机实验是通过多个随机变量来描述的。例如:

我们随机选择 n = 10 人的样本并观察他们的高度。令 \(X_1,\cdots,X_n\) 是个体高度。

我们反复抛硬币。如果第 i 次翻转是“正面”,则令 \(X_i = 1\),否则为 0。该实验由硬币翻转序列 \(X_1,X_2,\cdots\) 描述。

我们从大量人群中随机选择一个人并测量他/她的体重 X 和身高 Y 。

4.1 联合分布与独立

\(X_1,\cdots,X_n\) 是描述一些随机实验的随机变量。我们可以将 \(X_i\) 累积成行向量 \(X=(X_1,\cdots,X_n)\) 或列向量 \(X=(X_1,\cdots,X_n)^T\) (这里 T 表示转置)。 X 称为随机向量(random vector)。

回想一下,单个随机变量 X 的分布完全由其累积分布函数指定。 类似地, 的分布由其联合累积分布函数(joint cumulative distribution function) F 指定,定义为

\[F(x_1,\cdots,x_n)=\mathbb{P}(\{X_1 \leq x_1\} \cap \cdots \cap \{X_n \leq x_n\}) =\mathbb{P}(X_1 \leq x_1, \cdots, X_n \leq x_n)

\]

如果我们知道 F,那么原则上我们就可以推导出涉及 \(X_i\) 的任何概率。请注意右侧的缩写。今后我们将在整个注释中使用这种缩写。

与一维情况类似,我们区分 \(X_i\) 离散和连续的情况。相应的联合分布再次分别称为离散分布和连续分布。

4.1.1 离散联合分布(Discrete Joint Distribution)

为了了解离散情况下的工作原理,让我们从一个例子开始。

示例 4.1 盒子里有三个骰子。骰子1为普通骰子;骰子 2 没有 6 点,而是有两个 5 点;骰子 3 没有 5 点,而是有两个 6 点。实验随机选择一个骰子,然后用该骰子进行投掷。令 X 为所选骰子编号,令 Y 为该骰子的面值。概率 P(X = x, Y = y) 描述如下。

函数 f:(x,y)→P(X=x,Y=y)称为X和Y的联合 pmf。以下定义只是对此的概括。

定义 4.1 令 \(X_1,\cdots,X_n\) 为离散随机变量。定义为 \(f(x_1,\cdots,x_n)=\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)\) 的函数 f 称为 \(X_1,\cdots,X_n\) 的联合概率质量函数 (joint probability mass function pmf)。

我们有时会写 \(f_{X_1,\cdots,X_n}\) 而不是 f,以表明这是随机变量 \(X_1,\cdots,X_n\) 的 pmf。或者,如果 X 是相应的随机向量,我们可以写成 \(f_X\) 。

请注意,根据求和规则,如果给定 \(X_1,\cdots,X_n\) 的联合 pmf,我们原则上可以计算涉及这些随机变量的所有可能概率。例如,在二维情况下对于(X, Y ) 的可能值的任何子集 B。

\[\mathbb{P}((X,Y) \in B)=\sum_{(x,y) \in B}(X=x, Y=y)

\]

特别是,我们可以通过对 y 所有可能值的联合 pmf 求和来找到 X 的 pmf:

\[\mathbb{P}(X=x)=\sum_y\mathbb{P}(X=x,Y=y)

\]

反之则不然:根据 X 和 Y 的单独分布(所谓的边缘分布marginal distribution),我们通常无法重建 X 和 Y 的联合分布。我们缺少“依赖”信息。例如,在示例 4.1 中,如果仅给出列和行总计,我们无法重建二维表的内部。

然而,有一个重要的例外:即当我们在处理独立随机变量。到目前为止,我们仅定义了事件的独立性。以下定义表示,如果事件 \(\{X_1 \in A_1\},\cdots,\{X_n \in A_n\}\) 对于任何 R 的子集 \(A_1, \cdots, A_n\) 独立,则随机变量 \(X_1,\cdots,X_n\) 独立。直观地讲,这意味着其中任何一个的信息都不会影响我们对其他的了解。

定义 4.2 如果对于所有 \(A_1,\cdots,A_n\),\(A_i ⊂ \mathbb{R},i=1,\cdots,n\) ,满足

\[\mathbb{P}(X_1 \in A_1, \cdots, X_n \in A_n)=\mathbb{P}(X_1 \in A_1) \cdots \mathbb{P}(X_n \in A_n)

\]

则称随机变量 \(X_1,\cdots,X_n\) 是独立的.

以下定理是上述定义的直接推导。

定理 4.1 对于所有 \(x_1,x_2,\cdots,x_n\),当且仅当

$\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=\mathbb{P}(X_1=x_1)\cdots \mathbb{P}(X_n=x_n)$ (4.1)

时,离散随机变量 $X_1,\cdots,X_n$ 是独立的。

证明。必要条件很明显:如果 \(X_1,\cdots,X_n\) 是独立的随机变量,则 \(\{X_1=x_1\},\cdots,\{X_n=x_n\}\) 是(相互)独立的事件。为了证明充分条件,写作

\[\mathbb{P}(X_1 \in A_1,\cdots X_n \in A_n)=\sum_{x_1 \in A_1}\cdots \sum_{x_1 \in A_n} \mathbb{P}(X_1=x_1,\cdots,X_n = x_n)

\]

那么,如果(4.1)成立,则倍数和可以写为

\[\sum_{x_1 \in A_1}\mathbb{P}(X_1=x_1)\cdots \sum_{x_n \in A_n}\mathbb{P}(X_n = x_n)=\mathbb{P}(X_1 \in A_1)\cdots \mathbb{P}(X_n \in A_n)

\]

这表示 $X_1,\cdots,X_n $ 是独立随机变量

示例 4.2 我们用三个普通的骰子重复例 4.1 中的实验。现在表中的联合概率是多少?由于事件 {X = x} 和 {Y = y} 现在是独立的,因此 pmf 表中的每条都是 \(\frac{1}{3} \times \frac{1}{6}\) 。显然,在第一个实验中,并非所有事件 {X = x} 和 {Y = y} 都是独立的(为什么不呢?)。

示例 4.3(抛硬币实验) 考虑我们抛硬币 n 次的实验。我们可以通过以下方式对该实验进行建模。对于 i = 1,...,n 令 \(X_i\) 为第 i 次抛掷的结果:{\(X_i\) = 1} 表示正面,{\(X_i\) = 0} 表示反面。另外,令

\[\mathbb{P}(X_i=1)=p=1-\mathbb{P}(X_1=0),i=1,2,\cdots,n

\]

因此,p 可以解释为正面朝上的概率,可能是已知的,也可能是未知的。最后,假设 \(X_1,\cdots, X_n\) 是独立的。

这完全描述了我们的模型。特别是我们可以找到与 \(X_i\) 相关的任何概率。例如,设 \(X=X_1 + \cdots + X_n\) 为 n 次抛掷中正面朝上的总数。显然 X 是一个随机变量,取值在 0 到 n 之间。用 A 表示所有二元向量 \(x=(x_1,\cdots ,x_n)\) 的集合,使得 \(\sum_{i=1}^nx_i=k\)。请注意,A 有 \(\binom{n}{k}\) 个元素。我们现在得出

\[\begin{align*}

\mathbb{P}(X=k)&=\sum_{x \in A}\mathbb{P}(X_1=x_1,\cdots,X_n=x_n) \\

&=\sum_{x \in A}\mathbb{P}(X_1=x_1)\cdots\mathbb{P}(X_n=x_n)=\sum_{x \in A}p^k(1-p)^{n-k} \\

&=\binom{n}{k}p^k(1-p)^{n-k}

\end{align*}

\]

换句话说,X~Bin(n,p)。可以将此与示例 1.15 作比较。

备注 4.1 如果 f_{X_1,\cdots,X_n} 表示 \(X_1,\cdots,X_n\) 的联合 pmf 并且 \(f_{X_i}\) 是 \(X_i,i = 1,...,n\) 的边际 pmf (marginal pmf),则上述定理表明对于所有 \(x_1,\cdots,x_n\), \(X_i\) 的独立性等价于

\[f_{X_1,\cdots,X_n}(x_1,\cdots,x_n)=f_{X_1}(x_1)\cdots f_{X_n}(x_n)

\]

备注 4.2 有限选择参数 \(i_1,i_2,\cdots ,i_n\) (它们都不相同)的随机变量 \(X_{i_1},\cdots ,X_{i_n}\) 是独立的,那么随机变量无限(infinite)序列 \(X_1,X_2,\cdots\) 也被称为独立的。

多项式分布(Multinomial Distribution)

一个重要的离散联合分布是多项式分布。它可以被视为二项式分布的推广。首先我们给出定义,然后举例说明这种分布是如何在应用程序中出现的。

定义 4.3 如果满足 \(x_1 +x_2+\cdots +x_k=n\) 的所有 \(x_1,\cdots,x_k \in \{0,1,\cdots,n\}\) 存在

$\mathbb{P}(X_1=x_1,\cdots,X_k=x_k)=\frac{n!}{x_1!x_2!\cdots x_k!}p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}$ (4.2)

那么我们称带参数 n 和 $p_1,p_2,\cdots,p_k$ 的 ($X_1,X_2,\cdots,X_k$) 具有多项式分布。我们写作 $(X_1,\cdots,X_k) \sim Mnom(n,p_1,\cdots,p_k)$。

示例 4.4 我们独立地将 n 个球扔进 k 个瓮中,使得每个球被扔进瓮 i 中的概率为 \(p_i,i=1,\cdots,k\)。

设 $X_i$ 为瓮 i 中的球总数,i = 1, … ,k。我们已知 $(X_1,\cdots,X_k) \sim Mnom(n,p_1,\cdots,p_k)$ 。设 $x_1,\cdots,x_k$ 为 0 到 n 之间且总和为 n 的整数。首先 $x_1$ 个球落入第一个瓮中、然后 $x_2$ 个球落入第二个瓮中,以此类推,其概率为

$$p_1^{x_1}p_2^{x_2}\cdots p_k^{x_k}$$

为了求出第一个瓮中有 $x_1$ 个球、第二个瓮中有 $x_2$ 个球的概率,我们以上概率乘以用 $x_1,x_2,\cdots,x_k$ 个球填充瓮的方法数量,即 n!/(x1!x2!···xk!)。由此得出 (4.2)。

备注 4.3 请注意,对于二项式分布,只有两种可能的瓮。另请注意,对于每个 \(i=1,\cdots,k,~X_i \sim Bin(n,p_i)\)。

4.1.2 连续联合分布(Continuous Joint Distribution)

连续随机变量的联合分布通常通过联合 pdf 定义。结果与 4.1.1 节中讨论的离散情况非常相似。将本节与第 2.2.2 节中的一维情况进行比较。

定义 4.4 对于所有 \(a_1,\cdots,b_n\) 有

\[\mathbb{P}(a_1 \leq X_1 \leq b_1,\cdots,a_n \leq X_n \leq b_n)=\int_{a_1}^{b_1}\cdots \int_{a_n}^{b_n}f(x_1,\cdots,x_n)dx_1\cdots dx_n

\]

则我们称连续随机变量 \(X_1,\cdots,X_n\) 存在联合概率密度函数 (pdf) f。

我们有时会写 \(f_{X_1,\cdots,X_n}\) 而不是 f,以表明这是随机变量 \(X_1,\cdots,X_n\) 的 pdf。或者,如果 X 是相应的随机向量,我们可以写成 \(f_X\) 。

我们可以将 \(f(x_1,\cdots,x_n)\) 解释为 pmf 的连续模拟,或者解释为 \(X_1=x_1,X_2=x_2,\cdots,X_n=x_n\) 的“密度”。例如在二维情况下:

\[\begin{align*}

\mathbb{P}&(x \leq X \leq x+h,y \leq Y \leq y+h) \\

&=\int_x^{x+h} \int_y^{y+h} f(u,v)du~dv \approx h^2~f(x,y)

\end{align*}

\]

请注意,如果联合 pdf 已经给定,原则上我们可以计算出所有的概率。具体来说,在这二维例子中我们得到 $\mathbb{R}^2 $ 范围内任何 B 的子集的概率 :

$\mathbb{P}((X,Y) \in B)=\int~\int_{(x,y) \in B}f(x,y)~dx~dy$ (4.3)

与离散情况类似,如果 \(X_1,\cdots,X_n\) 具有联合 pdf f,则可以通过对所有其他变量积分 f 来找到每个 \(X_i\) 的(个体或边际)pdf。例如,在二维情况下

\[f_X(x)=\int_{y=-\infty}^\infty f(x,y)~dy

\]

然而,我们通常无法从边际 pdf 重建联合 pdf,除非我们假设随机变量是独立的。独立性的定义与离散随机变量完全相同,参见定义 4.2。但是,更重要的是,我们有类似定理 4.1 的以下定理。

定理 4.2 令 \(X_1,\cdots,X_n\) 为具有联合 pdf f 和边际 pdf \(f_{X_1,\cdots,X_n}\) 的连续随机变量。当且仅当所有 \(x_1,\cdots,x_n\) 满足

$f(x_1,\cdots,x_n)=f_{X_1}(x_1)\cdots f_{X_n}(x_n)$ (4.4)

时,随机变量 $X_1,\cdots,X_n$ 是独立的

示例 4.5 考虑一下我们从区间 [0,1] 中随机且独立地选择 n 个点的实验。我们可以使用计算器或计算机,使用随机发生器来进行这个实验。在计算器上,这意味着按下 RAN# 或 Rand 按钮。以下是 n = 12 时实验的可能结果或实现。

0.9451226800 0.2920864820 0.0019900900 0.8842189383 0.8096459523 0.3503489150 0.9660027079 0.1024852543 0.7511286891 0.9528386400 0.2923353821 0.0837952423

该实验的模型是:设 \(X_1, \cdots, X_n\) 是独立的随机变量,每个变量在 [0,1] 上均匀分布。 \(X_1,\cdots,X_n\) 的联合 pdf 很简单,即

\[f(x_1,\cdots,x_n)=1, 0 \leq x_1 \leq 1,\cdots,0 \leq x_n \leq 1

\]

原则上我们现在可以计算涉及 \(X_i\) 的任何概率。例如,对于 n = 2 的情况,概率是多少?\(\mathbb{P}\left(\frac{X_1+X_2^2}{X_1X_2}>sin(X_!^2=X_2\right)\) 吗?

答案是,根据 (4.3),为

\[\int \int_A 1~dx_1~dx_2=Area(A)

\]

这里

\[A=\left\{(x_1,x_2) \in [0,1]^2: \frac{x_1+x_2^2}{x_1x_2}>sin(x_1^2 -x_2)\right\}

\]

(其中 \([0,1]^2\) 是 \(\mathbb{R}^2\) 内的单位平方)

备注 4.4 上例中使用的模型类型,即 \(X_1,\cdots,X_n\) 相互独立且具有相同的分布,是统计学中应用最广泛的模型。我们说 \(X_1,\cdots,X_n\) 是来自给定分布的大小为 n 的随机样本。在示例 4.5 中 \(X_1,\cdots,X_n\) 是来自 U[0, 1] 分布的随机样本。在示例 4.3 中,我们还有一个随机样本,这次来自 Ber(p) 分布。随机样本的常见分布有时称为抽样分布(sampling distribution)。

使用计算机,我们可以从许多(抽样)分布中生成随机样本的结果。在图 4.1 中,两个随机样本的结果(大小均为 1000)以直方图(histogram)形式示出。这里将x轴分为20个区间,统计每个区间内的点数。第一个样本来自 U[0, 1] 分布,第二个样本来自 N(1/2, 1/12) 分布。 matlab命令是:

figure(1)

hist(rand(1,1000),20)

figure(2)

hist(1/2 + randn(1,1000)*sqrt(1/12),20)

请注意,分布的真实期望和方差是相同的。然而,两个样本中点的“密度”明显不同,并且遵循相应 pdf 的形状。

图 4.1:U[0,1] 分布(上)和 N(1/2, 1/12) 分布(下)的大小为 100 的随机样本的直方图。