概率论与数理统计

本学期我在杨丽丽教授的课程上学习了概率论与数理统计，以下是我整理的学习笔记。内容涵盖了概率论的基本概念、概率分布、统计推断等方面。通过系统地整理和总结相关知识点，旨在帮助读者更好地理解和掌握概率论与数理统计的核心内容。

如果有练习需要，可以前往“数苑”平台进行更多练习。

1 概率论基础

1.1 概率空间

1.1.1 样本空间与事件

样本空间是所有可能结果的集合，记为 $\Omega$ 。事件是样本空间的子集，表示某些特定结果的集合。

例子：掷一枚公平的硬币，样本空间为 $\Omega = \{H, T\}$ ，事件 $A$ 表示掷出正面，则 $A = \{H\}$ 。这样只有一个样本点的事件被称为基本事件，例如 $A$ 就是一个基本事件。事件 $B$ 表示掷出反面，则 $B = \{T\}$ ，也是一个基本事件。事件 $C$ 表示掷出正面或反面，则 $C = \{H, T\}$ ，是一个复合事件。

这是一个非常简单的例子，但它展示了概率空间的基本构成。我们可以通过定义不同的事件来分析各种情况，例如事件 $B$ 表示掷出反面，则 $B = \{T\}$ 。

事件的发生： 事件 $A$ 发生当且仅当样本点 $\omega \in A$ 。因此，若 $A \subseteq B$ ，则事件 $A$ 发生时事件 $B$ 一定发生。

事件的关系类型：

若 $A \subseteq B$ ，则称事件 $A$ 是事件 $B$ 的子事件（Subevent）。

若 $A \cap B = \emptyset$ ，则称事件 $A$ 和事件 $B$ 是互斥事件（Exclusive Event）。

若 $A \cap B = \emptyset$ 且 $A \cup B = \Omega$ ，则称事件 $A$ 和事件 $B$ 是互补事件（Complementary Events）。

1.1.2 $\sigma$ -代数

现代概率论中，由于一些历史上的悖论，柯尔莫哥洛夫引入了 $\sigma$ -代数的概念来定义事件的集合。

定义：设 $\Omega$ 是一个非空集合， $\mathcal{F}$ 是 $\Omega$ 的子集的集合，如果满足以下条件，则称 $\mathcal{F}$ 是 $\Omega$ 上的 $\sigma$ -代数：

$\Omega \in \mathcal{F}$ 。

如果 $A \in \mathcal{F}$ ，则 $\bar{A} \in \mathcal{F}$ 。

如果 $A_1, A_2, \ldots \in \mathcal{F}$ ，则 $\bigcup_{i=1}^{\infty} A_i \in \mathcal{F}$ 。

在测度论上，我们通常将 $\sigma$ -代数定义在Borel集上，确保了我们可以对事件进行合理的测度和概率分配。这种结构使得概率论具有了坚实的数学基础，避免了历史上的一些悖论问题。

Borel集： Borel集是具有如下性质的集合：

包含所有开区间。

闭区间也是Borel集。

通过有限次或可数次的集合运算（如并集、交集、补集）得到的集合也是Borel集。

我们来看一个例子：

例子：在实数轴上，开区间 $(0, 1)$ 和闭区间 $[0, 1]$ 都是Borel集。通过集合运算，我们可以得到更多的Borel集，例如 $A = (0, 1) \cup [2, 3]$ 也是一个Borel集。

Borel集合描述的是样本空间的一个子集族，这些集合可以被赋予概率值，从而构成一个概率空间。通过定义Borel集，我们可以确保我们讨论的事件是可测的，从而能够合理地分配概率。

1.1.4 概率（测度）

概率是定义在 $\sigma$ -代数上的一个测度函数 $P:\mathcal{F} \to \mathbb{R}$ ，满足以下条件：

非负性：对于所有 $A \in \mathcal{F}$ ， $P(A) \geq 0$ 。

规范化： $P(\Omega) = 1$ 。

可列可加性：如果 $A_1, A_2, \ldots$ 是 $\mathcal{F}$ 中的两两不交事件，则 $P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$ 。

在历史上，人们采用了很多不同的概率定义方法，主要包括古典概率、几何概率和公理化概率三种。下面我们将分别介绍这三种定义方法：

古典概率

古典概率建立在有限离散样本空间上，假设样本空间 $\Omega$ 中的每个基本事件发生的可能性相等，也就是说， $\forall w_i,w_j, P(w_i) = P(w_j)$ 。那么事件 $A$ 的概率可以通过以下公式计算：

$P(A) = \frac{|A|}{|\Omega|}$

频率学派认为概率是事件在大量重复试验中出现的频率的极限值。

\lim_{n\to \infty} \frac{n_A}{n} = P(A)

布封投针实验： 在布封投针实验中，我们将一根长度为 $l$ 的针随机地投掷到一个平面上，平面上有平行的线条，线条之间的距离为 $d$ 。我们想要计算针与线条相交的概率。通过几何分析和积分技巧，我们可以得出以下结论：

当 $l \leq d$ 时，针与线条相交的概率为 $P = \frac{2l}{\pi d}$ 。

当 $l > d$ 时，针与线条相交的概率为 $P = \frac{2l}{\pi d} - \frac{2\sqrt{l^2 - d^2}}{\pi d}$ 。

布封根据这个原理，通过大量的实验证明了随机试验可以估计 $\pi$ 的值，这也是频率概率的一个重要应用。

虽然这种定义在某些情况下是有用的，但它并不能适用于所有类型的事件，特别是那些无法进行大量重复试验的事件，我们需要更一般的概率定义方法来处理这些情况。

几何概率

几何概率适用于连续样本空间，事件 $A$ 的概率可以通过以下公式计算： $P(A) = \frac{\text{事件 } A \text{ 的测度}}{\text{样本空间 } \Omega \text{ 的测度}}$

但是，人们尚未解决测度的严格定义问题，这导致了一些悖论的出现，例如巴拿赫-塔尔斯基悖论和斯特罗姆伯格悖论。这些悖论表明，在某些情况下，几何概率的定义可能会导致矛盾的结果，因此需要更严格的数学框架来解决这些问题。

公理化概率

公理化概率是现代概率论的基础，建立在柯尔莫哥洛夫的公理体系上。通过定义概率空间，我们可以系统地分析各种随机现象，并为后续的概率论和数理统计的学习打下坚实的基础。

公理化概率基于三条基本公理：

非负性：对于所有事件 $A$ ， $P(A) \ge 0$ 。

规范化： $P(\Omega) = 1$ 。

可列可加性：如果 $A_1, A_2, \ldots$ 是 $\mathcal{F}$ 中的两两不交事件，则 $P\left(\bigcup_{i=1}^{\infty} A_i\right) = \sum_{i=1}^{\infty} P(A_i)$ 。

注：可列可加性蕴含了空集的概率为零，即 $P(\emptyset) = 0$ 。我们可以通过以下推导来证明这一点： $P(\Omega) = P(\Omega \cup \emptyset) = P(\Omega) + P(\emptyset) \implies P(\emptyset) = 0$

公理化概率统一了离散和连续的概率定义，同时解决了历史上的悖论问题，使得概率论具有了坚实的数学基础。

1.1.5 概率空间

概率空间是一个三元组，我们用 $(\Omega, \mathcal{F}, P)$ 来表示，其中 $\Omega$ 是样本空间， $\mathcal{F}$ 是 $\Omega$ 上的 $\sigma$ -代数， $P$ 是定义在 $\mathcal{F}$ 上的概率测度。

概率空间给予了我们一个研究事件与衡量事件发生可能性的代数结构，使得我们能够系统地分析各种随机现象。通过定义概率空间，我们可以将抽象的概率概念具体化，并为后续的概率论和数理统计的学习打下坚实的基础。

1.1.6 概率计算

概率计算建立在公理化概率的基础上，利用概率的基本性质和定理来计算事件的概率。常用的概率计算方法可以依靠若干组合学上的定理来实现，例如：

容斥原理：对于任意事件 $A_1, A_2, \ldots, A_n$ ，有 $P\left(\bigcup_{i=1}^n A_i\right) = \sum_{i=1}^n P(A_i) - \sum_{1 \le i < j \le n} P(A_i \cap A_j) + \\ \cdots + (-1)^{n+1} P\left(\bigcap_{i=1}^n A_i\right)$

子集的概率比较：如果 $A \subseteq B$ ，则 $P(A) \le P(B)$ 。也就是说，概率测度不改变链上的偏序关系。我们可以通过以下推导来证明这一点： $P(B) = P(A \cup (B \setminus A)) = P(A) + P(B \setminus A) \ge P(A)$

其它的组合学定理…

由于概率的可列可加性，我们可以通过很多的组合学定理解决概率的计算问题，此处不再赘述。

1.1.7 一些习题

习题A组（集合论）

习题1 若 $A \cap B = \overline{A \cup B}$ , 证明 $A \cup B = \Omega$

习题2 对于 $\bigcup_{i=1}^n A_i$ ，证明其可以分解为两两互斥的事件的并集。（提示：采用首次采用原则， $B_1 = A_1, B_2 = A_2 \setminus A_1, \ldots, B_n = A_n \setminus (A_1 \cup \cdots \cup A_{n-1})$ ）

习题3 证明 $A\cap C = B \cap C\Leftrightarrow (\overline{A\cup B}) \cap C = (\bar{A} \cap C) \cup (\bar{B} \cap C)$

Proof. 右侧 $(\bar{A} \cap \bar{B}) \cap C = (\bar{A} \cup C) \cap (\bar{B} \cap C) = (\bar{A} \cap C) \cup (\bar{B} \cap C)$ 。

引理. $X \cup Y = X \cap Y \Leftrightarrow X = Y$

subproof. 由 $X \cup Y = X \cap Y$ ，我们有 $X \subseteq Y$ 和 $Y \subseteq X$ ，所以 $X = Y$ 。反过来，由 $X = Y$ ，我们有 $X \cup Y = X \cap Y$ .

因此我们令 $X = (\bar{A} \cap C)$ 和 $Y = (\bar{B} \cap C)$ ，则有 $(\bar{A} \cap C) \cup (\bar{B} \cap C) = (\bar{A} \cap C) \cap (\bar{B} \cap C)$ 当且仅当 $(\bar{A} \cap C) = (\bar{B} \cap C)$ .

我们注意到左侧 $A \cap C = B \cap C$ , 则 $C \setminus (A \cap C) = C \setminus (B \cap C)$ ，即 $(\bar{A} \cap C) = (\bar{B} \cap C)$ .

因此左右可以互推。

习题4 用集合列表示极限： $\{f_n(x), x\in [0,1]\}, \lim_{n\to \infty} f_n(x) \to 0$ 、

习题B组（组合学）

习题1 求将 $n$ 个小球放入 $N(\geq n)$ 个盒子中，使得每个盒子最多放一个球的方案数。

这个问题很简单，我们可以反过来考虑，找出 $n$ 个盒子放入 $n$ 个小球的方案数。如果不保证每个盒子只有一个小球，总共有 $N^n$ 次选择（假设盒子有标号），但是我们需要保证每个盒子最多放一个小球，因此我们需要从 $N$ 个盒子中选择 $n$ 个来放置小球，这有 $\frac{N!}{(N-n)!}$ 种选择。因此概率为 $P(A) = \frac{P_{N}^n}{N^n}$

习题2（生日悖论） 在一个班级中，如果有 $n$ 个学生，那么至少有两个人生日相同的概率为多少？

我们算反面，注意到这等价于上一题的放小球问题，因此至少有两个人生日相同的概率为 $P(A) = 1 - \frac{365!}{(365-n)!365^n}$

习题3（伯努利信件错配问题） 有 $n$ 封信和 $n$ 个信封，每封信都有一个对应的信封。每一个信件都送错的概率是？

习题4 若事件 $A, B$ 中只有一个发生的概率为0.3，且 $P(A) + P(B) = 0.5$ ，则它们至少有一个不发生的概率是？

由题意， $P(A \cup B - AB) = 0.3$ ，即 $P(A \cup B) - P(AB) = 0.3$

$P(\overline{A} \cup \overline{B}) = 1 - P(AB)$ ,且 $P(A\cup B) = 0.5 - P(AB) \Rightarrow P(A\cup B)+P(AB) = 0.5$

从而我们可以解出 $P(AB)。$

1.2 独立事件与条件概率

独立事件是指两个事件之间没有任何关联，即一个事件的发生与另一个事件的发生没有任何关系。对于两个事件 $A$ 和 $B$ ，如果满足以下条件，则称它们是独立的： $P(AB) = P(A)P(B)$

独立性是对于事件之间关系性质的描述，而不是事件本身的性质。一个事件可以是独立的，也可以是非独立的，这取决于它与其他事件之间的关系。

如果两个事件的独立关系并不确定，我们引入条件概率来描述事件之间的关系。对于事件 $A$ 和 $B$ ，如果 $P(B) > 0$ ，则条件概率 $P(A|B)$ 定义为： $P(A|B) = \frac{P(AB)}{P(B)}$

注： $P(A|B) = 0$ 不代表事件 $A$ 和 $B$ 是独立的，因为此时表明 $P(AB) = 0$ ，但 $P(A)P(B)$ 不一定为零。

定理：条件概率是概率测度。

证明：对于任意事件 $A$ ， $P(A|B) \ge 0$ ； $P(\Omega|B) = 1$ ；如果 $A_1, A_2, \ldots$ 是 $\mathcal{F}$ 中的两两不交事件，则 $P\left(\bigcup_{i=1}^{\infty} A_i \Big| B\right) = \frac{P\left(\bigcup_{i=1}^{\infty} A_i B\right)}{P(B)} = \frac{\sum_{i=1}^{\infty} P(A_i B)}{P(B)} = \sum_{i=1}^{\infty} P(A_i | B)$

因此，条件概率满足概率测度的定义。

1.2.1 全概率公式与贝叶斯定理

全概率公式是条件概率的一个重要应用，它描述了事件 $A$ 的概率可以通过事件 $B_i$ 的条件概率来计算。设 $\{B_1, B_2, \ldots, B_n\}$ 是一个事件的划分，即 $B_i$ 之间两两不交且 $\bigcup_{i=1}^n B_i = \Omega$ ，则全概率公式为：

$P(A) = \sum_{i=1}^n P(A|B_i)P(B_i)$

这个公式的证明是显然的：

证明：注意到 $P(A) = P(A \cap \Omega) = P\left(A \cap \bigcup_{i=1}^n B_i\right) = \sum_{i=1}^n P(AB_i)$ ，而 $P(AB_i) = P(A|B_i)P(B_i)$ ，因此得到全概率公式。

利用全概率公式我们可以轻易得到贝叶斯公式：

$P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^n P(A|B_j)P(B_j)}$

我们称 $P(A|B_i)$ 为似然函数， $P(B_i)$ 为先验概率， $P(B_i|A)$ 为后验概率。贝叶斯定理在统计推断中有着重要的应用，特别是在贝叶斯统计中，我们通过更新先验概率来得到后验概率，从而进行推断和决策。后验概率的含义是，在观察到事件 $A$ 发生之后，事件 $B_i$ 发生的概率。通过贝叶斯定理，我们可以将新的信息（事件 $A$ 的发生）纳入我们的概率评估中，从而得到更准确的概率估计。

贝叶斯公式给出了条件概率对于一般概率的加权公式，这表明，我们可以利用多余的信息来提高我们对于概率的分解，从而对于概率的结构有更深入的理解。

1.2.3 两两独立（pairwise independent）与相互独立（mutually independent）

对于多个事件的独立性，我们需要区分两两独立和相互独立的概念。两两独立是指对于任意两个事件 $A_i$ 和 $A_j$ ，它们是独立的，即 $P(A_i A_j) = P(A_i)P(A_j)$ ；而相互独立是指对于任意子集 $\{A_{i_1}, A_{i_2}, \ldots, A_{i_k}\}$ ，它们是独立的，即 $P(A_{i_1} A_{i_2} \cdots A_{i_k}) = P(A_{i_1})P(A_{i_2}) \cdots P(A_{i_k})$ 。

1.2.4 独立事件的性质

定理：若 $A$ 和 $B$ 是独立事件，则 $\bar{A}$ 和 $B$ 也是独立事件。

证明：由于 $A$ 和 $B$ 是独立事件，我们有 $P(AB) = P(A)P(B)$ 。因此， $P(\bar{A}B) = P(B) - P(AB) = P(B) - P(A)P(B) = P(B)(1 - P(A)) = P(\bar{A})P(B)$ 所以 $\bar{A}$ 和 $B$ 是独立事件。

1.2.5 一些习题

习题1 $P(\bigcap_{i=1}^n A_i) \geq \sum_{i=1}^n P(A_i) - (n-1)$

习题2 $|P(AB) - P(A)P(B)| \leq \frac{1}{4}$

习题3 $P(A) = 0.6, P(B) = 0.7$ , 求 $P(AB)$ 的范围。

习题4 圆排列：设6个人围成一圈，求至少有两个人相邻的概率。（如果旋转之后一致，那么认为相同）。

1.3 随机变量与概率分布

1.3.1 随机变量

随机变量是一个函数 $X: \Omega \to \mathbb{R}$ ，它将样本空间 $\Omega$ 中的每个样本点 $\omega$ 映射到实数轴上的一个实数 $X(\omega)$ 。随机变量的引入使得我们可以用数值来描述随机现象，从而便于进行数学分析和计算。

例如，在掷一枚骰子的试验中，样本空间 $\Omega = \{1, 2, 3, 4, 5, 6\}$ ，我们可以定义一个随机变量 $X$ 表示掷出的点数，即 $X(\omega) = \omega$ 。这样，我们就可以用数值来描述掷骰子的结果了。

随机变量可以分为离散型和连续型两种类型。离散型随机变量取值为有限个或可数无限个；连续型随机变量取值为某个区间上的所有实数。

我们发现，我们前面给出的Borel集的定义是为了确保随机变量是可测函数。

可测函数： 随机变量被定义为在Borel集上的可测函数，这意味着对于任意的Borel集 $B$ ，保证了 $\{\omega| X(\omega) \in B\} \in \mathcal{F}$ ，从而使得 $P(X\in B)$ 总是存在概率。如果 $X$ 不可测，那么累计分布函数可能无法定义、期望（ $\int X \mathrm{d}P$ ）可能不可积。

1.3.2 概率分布

累计分布函数

定义了随机变量之后，我们可以考虑其累计分布函数（CDF）和概率分布。累计分布函数 $F(x)$ 定义为 $F(x) = P(X \le x)$ ，它描述了随机变量 $X$ 取值小于或等于 $x$ 的概率。

累计分布函数具有以下基本性质：

单调不减性：若 $x_1 < x_2$ ，则 $F(x_1) \le F(x_2)$ 。

右连续性： $\lim_{x \to x_0^+} F(x) = F(x_0)$ 。

极限性质： $\lim_{x \to -\infty} F(x) = 0$ ， $\lim_{x \to +\infty} F(x) = 1$ 。

这些性质使得累计分布函数成为描述随机变量行为的强大工具。通过CDF，我们可以计算任意区间内的概率： $P(a < X \le b) = F(b) - F(a)$ 。

概率质量函数和概率密度函数

随机变量的概率分布描述了随机变量取不同值的概率情况。对于离散型随机变量，我们用概率质量函数（PMF）来描述其分布；对于连续型随机变量，我们用概率密度函数（PDF）来描述其分布。

离散型随机变量的概率质量函数： 对于离散型随机变量 $X$ ，其概率质量函数 $p(x)$ 定义为 $p(x) = P(X = x)$ ，满足 $\sum_{x} p(x) = 1$ 。

连续型随机变量的概率密度函数： 对于连续型随机变量 $X$ ，其概率密度函数 $f(x)$ 定义为满足 $P(a \le X \le b) = \int_a^b f(x) \mathrm{d}x$ 的函数，且满足 $\int_{-\infty}^{\infty} f(x) \mathrm{d}x = 1$ 。

注：注意区分概率密度函数与概率测度—— $P:\mathcal{F} \to [0,1]$ ，而 $f: \mathbb{R} \to [0, \infty)$ 是一个函数，它不是概率测度，但可以通过积分得到概率测度。

对于连续型随机变量，需要注意 $P(X = x) = 0$ 对任意单点成立，这与离散型情况有本质区别。概率密度函数 $f(x)$ 在某点的值并不代表概率，而是概率的”密度”，只有经过积分后才能得到实际概率。

1.3.3 常见的离散分布

离散型随机变量在实际应用中非常常见，下面介绍几种重要的离散分布。

伯努利分布（Bernoulli Distribution）

伯努利分布是最简单的离散分布，描述只有两种可能结果的随机试验。

定义：若随机变量 $X$ 只取 0 和 1 两个值，且 $P(X=1) = p$ ， $P(X=0) = 1-p$ ，其中 $0 \le p \le 1$ ，则称 $X$ 服从参数为 $p$ 的伯努利分布，记为 $X \sim \text{Bernoulli}(p)$ 。

伯努利分布的期望和方差分别为： $E[X] = p$ ， $\text{Var}(X) = p(1-p)$ 。

例子：抛一枚硬币，正面朝上记为 1，反面朝上记为 0。若硬币公平，则 $p = 0.5$ ，服从伯努利分布。

二项分布（Binomial Distribution）

二项描述 $n$ 次独立伯努利试验中成功次数的分布。

定义：设 $X$ 为 $n$ 次独立伯努利试验中成功的次数，每次成功概率为 $p$ ，则 $X$ 的概率质量函数为： $P(X = k) = \binom{n}{k} p^k (1-p)^{n-k}, \quad k = 0, 1, \ldots, n$ 称 $X$ 服从参数为 $(n, p)$ 的二项分布，记为 $X \sim \text{Binomial}(n, p)$ 。

二项分布的期望和方差： $E[X] = np$ ， $\text{Var}(X) = np(1-p)$ 。

例子：连续抛掷 10 枚公平硬币，正面朝上的次数服从 $\text{Binomial}(10, 0.5)$ 分布。

泊松分布（Poisson Distribution）

泊松分布常用于描述单位时间或单位空间内随机事件发生次数的分布。

定义：若随机变量 $X$ 的概率质量函数为： $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}, \quad k = 0, 1, 2, \ldots$ 其中 $\lambda > 0$ 为参数，则称 $X$ 服从参数为 $\lambda$ 的泊松分布，记为 $X \sim \text{Poisson}(\lambda)$ 。

泊松分布的期望和方差相等： $E[X] = \text{Var}(X) = \lambda$ 。

泊松分布与二项分布的关系：当 $n$ 很大且 $p$ 很小时，二项分布 $\text{Binomial}(n, p)$ 可以用泊松分布 $\text{Poisson}(np)$ 近似。具体来说，若 $n \to \infty$ ， $p \to 0$ ，且 $np \to \lambda$ ，则： $\binom{n}{k} p^k (1-p)^{n-k} \approx \frac{\lambda^k e^{-\lambda}}{k!}$

例子：某客服中心每小时平均接到 4 通电话，则一小时内接到的电话数服从 $\text{Poisson}(4)$ 分布。

几何分布（Geometric Distribution）

几何分布描述在独立伯努利试验中首次成功所需的试验次数。

定义：设 $X$ 为首次成功所需的试验次数，每次成功概率为 $p$ ，则： $P(X = k) = (1-p)^{k-1} p, \quad k = 1, 2, \ldots$ 称 $X$ 服从参数为 $p$ 的几何分布，记为 $X \sim \text{Geometric}(p)$ 。

几何分布具有无记忆性： $P(X > m + n | X > m) = P(X > n)$ 。

期望和方差： $E[X] = \frac{1}{p}$ ， $\text{Var}(X) = \frac{1-p}{p^2}$ 。

负二项分布（Negative Binomial Distribution）

负二项分布是几何分布的推广，描述获得 $r$ 次成功所需的试验次数。

定义：设 $X$ 为获得 $r$ 次成功所需的试验次数，则： $P(X = k) = \binom{k-1}{r-1} p^r (1-p)^{k-r}, \quad k = r, r+1, \ldots$

当 $r = 1$ 时，负二项分布退化为几何分布。

1.3.4 常见的连续分布

连续型随机变量在实际应用中同样重要，下面介绍几种核心的连续分布。

均匀分布（Uniform Distribution）

均匀分布描述在区间内每个点等可能取值的随机变量。

定义：若随机变量 $X$ 在区间 $[a, b]$ 上的概率密度函数为： $f(x) = \begin{cases} \frac{1}{b-a}, & a \le x \le b \\ 0, & \text{其他} \end{cases}$ 则称 $X$ 服从 $[a, b]$ 上的均匀分布，记为 $X \sim \text{Uniform}(a, b)$ 。

均匀分布的期望和方差： $E[X] = \frac{a+b}{2}$ ， $\text{Var}(X) = \frac{(b-a)^2}{12}$ 。

例子：在 $[0, 1]$ 区间随机取一点，该点的坐标服从 $\text{Uniform}(0, 1)$ 分布。

正态分布（Normal/Gaussian Distribution）

正态分布是概率论中最重要的分布，在自然界和社会现象中广泛存在。

定义：若随机变量 $X$ 的概率密度函数为： $f(x) = \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right), \quad -\infty < x < +\infty$ 其中 $\mu \in \mathbb{R}$ ， $\sigma > 0$ ，则称 $X$ 服从参数为 $(\mu, \sigma^2)$ 的正态分布，记为 $X \sim N(\mu, \sigma^2)$ 。

正态分布的期望和方差： $E[X] = \mu$ ， $\text{Var}(X) = \sigma^2$ 。

标准正态分布：当 $\mu = 0$ ， $\sigma = 1$ 时，称为标准正态分布，记为 $Z \sim N(0, 1)$ 。其概率密度函数为： $\phi(z) = \frac{1}{\sqrt{2\pi}} e^{-\frac{z^2}{2}}$ 任何正态分布都可以通过标准化变换转化为标准正态分布：若 $X \sim N(\mu, \sigma^2)$ ，则 $Z = \frac{X-\mu}{\sigma} \sim N(0, 1)$ 。

例子：人的身高、测量误差、考试成绩等往往近似服从正态分布。

指数分布（Exponential Distribution）

指数分布常用于描述独立随机事件发生的时间间隔。

定义：若随机变量 $X$ 的概率密度函数为： $f(x) = \begin{cases} \lambda e^{-\lambda x}, & x \ge 0 \\ 0, & x < 0 \end{cases}$ 其中 $\lambda > 0$ ，则称 $X$ 服从参数为 $\lambda$ 的指数分布，记为 $X \sim \text{Exp}(\lambda)$ 。

指数分布的期望和方差： $E[X] = \frac{1}{\lambda}$ ， $\text{Var}(X) = \frac{1}{\lambda^2}$ 。

无记忆性：指数分布与几何分布类似，具有无记忆性： $P(X > s + t | X > s) = P(X > t), \quad \forall s, t > 0$ 这使得指数分布在可靠性理论和排队论中有重要应用。

与泊松分布的关系：若单位时间内某事件发生的次数服从泊松分布，则事件发生的间隔时间服从指数分布。

伽马分布（Gamma Distribution）

伽马分布是指数分布的推广，描述多个独立指数分布随机变量之和的分布。

定义：若随机变量 $X$ 的概率密度函数为： $f(x) = \begin{cases} \frac{\lambda^\alpha}{\Gamma(\alpha)} x^{\alpha-1} e^{-\lambda x}, & x > 0 \\ 0, & x \le 0 \end{cases}$ 其中 $\alpha > 0$ 为形状参数， $\lambda > 0$ 为率参数， $\Gamma(\alpha)$ 为伽马函数，则称 $X$ 服从伽马分布，记为 $X \sim \Gamma(\alpha, \lambda)$ 。

伽马函数： $\Gamma(\alpha) = \int_0^\infty t^{\alpha-1} e^{-t} \mathrm{d}t$ ，满足 $\Gamma(n) = (n-1)!$ （当 $n$ 为正整数）。

伽马分布的期望和方差： $E[X] = \frac{\alpha}{\lambda}$ ， $\text{Var}(X) = \frac{\alpha}{\lambda^2}$ 。

当 $\alpha = 1$ 时，伽马分布退化为指数分布。

卡方分布（Chi-Square Distribution）

卡方分布是伽马分布的特例，在统计推断中非常重要。

定义：若 $Z_1, Z_2, \ldots, Z_n$ 是独立同分布的标准正态随机变量，则： $X = Z_1^2 + Z_2^2 + \cdots + Z_n^2$ 服从自由度为 $n$ 的卡方分布，记为 $X \sim \chi^2(n)$ 。

卡方分布是 $\Gamma(\frac{n}{2}, \frac{1}{2})$ 的特例。其期望和方差： $E[X] = n$ ， $\text{Var}(X) = 2n$ 。

$t$ 分布（Student’s t-Distribution）

$t$ 分布在小样本统计推断中具有重要作用。

定义：设 $Z \sim N(0, 1)$ ， $U \sim \chi^2(n)$ ，且 $Z$ 与 $U$ 独立，则： $T = \frac{Z}{\sqrt{U/n}}$ 服从自由度为 $n$ 的 $t$ 分布，记为 $T \sim t(n)$ 。

$t$ 分布的概率密度函数为： $f(t) = \frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi} \Gamma(\frac{n}{2})} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}$

当 $n \to \infty$ 时， $t$ 分布趋近于标准正态分布。

$F$ 分布（F-Distribution）

$F$ 分布在方差分析和回归分析中广泛应用。

定义：设 $U \sim \chi^2(m)$ ， $V \sim \chi^2(n)$ ，且 $U$ 与 $V$ 独立，则： $F = \frac{U/m}{V/n}$ 服从自由度为 $(m, n)$ 的 $F$ 分布，记为 $F \sim F(m, n)$ 。

$F$ 分布与 $t$ 分布的关系：若 $T \sim t(n)$ ，则 $T^2 \sim F(1, n)$ 。

1.4 期望、方差、协方差与矩

数字特征是描述随机变量分布特性的重要指标，它们提供了分布的简洁概括。

1.4.1 期望

期望（或均值）是随机变量取值的加权平均，权重为相应的概率。

定义：设 $X$ 为随机变量：

若 $X$ 为离散型， $P(X = x_i) = p_i$ ，则 $E[X] = \sum_i x_i p_i$ （要求 $\sum_i |x_i| p_i < \infty$ ）。

若 $X$ 为连续型，概率密度函数为 $f(x)$ ，则 $E[X] = \int_{-\infty}^{\infty} x f(x) \mathrm{d}x$ （要求 $\int_{-\infty}^{\infty} |x| f(x) \mathrm{d}x < \infty$ ）。

期望具有以下重要性质：

线性性： $E[aX + b] = aE[X] + b$ ，其中 $a, b$ 为常数。

可加性： $E[X + Y] = E[X] + E[Y]$ ，无论 $X$ 与 $Y$ 是否独立。

独立性下的乘积性：若 $X$ 与 $Y$ 独立，则 $E[XY] = E[X]E[Y]$ 。

函数的期望（ LOTUS 法则）：设 $Y = g(X)$ ，则：

离散型： $E[Y] = \sum_i g(x_i) p_i$

连续型： $E[Y] = \int_{-\infty}^{\infty} g(x) f(x) \mathrm{d}x$ 无需先求 $Y$ 的分布，直接利用 $X$ 的分布即可计算。

1.4.2 方差

方差度量随机变量取值与其期望的偏离程度。

定义：随机变量 $X$ 的方差定义为： $\text{Var}(X) = E[(X - E[X])^2] = E[X^2] - (E[X])^2$ 标准差定义为 $\sigma_X = \sqrt{\text{Var}(X)}$ 。

方差的性质：

$\text{Var}(X) \ge 0$ ，且 $\text{Var}(X) = 0$ 当且仅当 $X$ 以概率 1 取常数值。

$\text{Var}(aX + b) = a^2 \text{Var}(X)$ 。

若 $X$ 与 $Y$ 独立，则 $\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$ 。

切比雪夫不等式：对于任意 $\varepsilon > 0$ ，有： $P(|X - E[X]| \ge \varepsilon) \le \frac{\text{Var}(X)}{\varepsilon^2}$ 这个不等式给出了偏离均值的概率上界，在证明大数定律中有重要应用。

1.4.3 协方差与相关系数

协方差度量两个随机变量之间的线性关联程度。

定义：随机变量 $X$ 和 $Y$ 的协方差定义为： $\text{Cov}(X, Y) = E[(X - E[X])(Y - E[Y])] = E[XY] - E[X]E[Y]$

协方差的性质：

对称性： $\text{Cov}(X, Y) = \text{Cov}(Y, X)$ 。

双线性： $\text{Cov}(aX + b, cY + d) = ac \cdot \text{Cov}(X, Y)$ 。

若 $X$ 与 $Y$ 独立，则 $\text{Cov}(X, Y) = 0$ （但反之不成立）。

方差公式： $\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X, Y)$ 。

相关系数是标准化后的协方差，消除了量纲的影响。

定义： $X$ 和 $Y$ 的相关系数定义为： $\rho_{XY} = \frac{\text{Cov}(X, Y)}{\sigma_X \sigma_Y}$ 其中 $\sigma_X = \sqrt{\text{Var}(X)}$ ， $\sigma_Y = \sqrt{\text{Var}(Y)}$ 。

1.4.4 矩

矩是期望概念的推广，可以描述分布的更多特征。

定义：随机变量 $X$ 的 $k$ 阶原点矩定义为 $\mu_k' = E[X^k]$ ， $k$ 阶中心矩定义为 $\mu_k = E[(X - E[X])^k]$ 。

特别地：

一阶原点矩 $\mu_1' = E[X]$ 就是期望。

二阶中心矩 $\mu_2 = \text{Var}(X)$ 就是方差。

偏度（Skewness）：三阶标准化矩，度量分布的不对称性： $\gamma_1 = \frac{\mu_3}{\sigma^3} = \frac{E[(X - \mu)^3]}{(\text{Var}(X))^{3/2}}$

$\gamma_1 = 0$ ：对称分布（如正态分布）。

$\gamma_1 > 0$ ：右偏（长尾在右）。

$\gamma_1 < 0$ ：左偏（长尾在左）。

峰度（Kurtosis）：四阶标准化矩，度量分布的尾部厚重程度： $\gamma_2 = \frac{\mu_4}{\sigma^4} - 3 = \frac{E[(X - \mu)^4]}{(\text{Var}(X))^2} - 3$ 减去 3 是为了使正态分布的峰度为 0（超值峰度）。

$\gamma_2 > 0$ ：比正态分布更尖峰厚尾。

$\gamma_2 < 0$ ：比正态分布更平峰薄尾。

1.5 多维随机变量与联合分布

在实际问题中，我们经常需要同时考虑多个随机变量，这就引入了多维随机变量的概念。

1.5.1 多维随机变量

定义：设 $X_1, X_2, \ldots, X_n$ 是定义在同一样本空间 $\Omega$ 上的 $n$ 个随机变量，则称向量 $\mathbf{X} = (X_1, X_2, \ldots, X_n)$ 为 $n$ 维随机向量或 $n$ 维随机变量。

多维随机变量的研究重点在于描述各分量之间的相互关系，这通过联合分布来实现。

1.5.2 联合分布

联合累计分布函数

定义： $n$ 维随机变量 $\mathbf{X} = (X_1, \ldots, X_n)$ 的联合累计分布函数定义为： $F(x_1, \ldots, x_n) = P(X_1 \le x_1, \ldots, X_n \le x_n)$

对于二维情况 $(X, Y)$ ，联合CDF $F(x, y) = P(X \le x, Y \le y)$ 具有以下性质：

$0 \le F(x, y) \le 1$ 。

$F(x, y)$ 对每个变量都是单调不减的。

$F(-\infty, y) = F(x, -\infty) = 0$ ， $F(+\infty, +\infty) = 1$ 。

对任意 $x_1 < x_2$ ， $y_1 < y_2$ ，有： $P(x_1 < X \le x_2, y_1 < Y \le y_2) = F(x_2, y_2) - F(x_2, y_1) - F(x_1, y_2) + F(x_1, y_1) \ge 0$

联合概率质量函数与联合概率密度函数

对于离散型随机变量：

联合PMF： $p(x, y) = P(X = x, Y = y)$ ，满足 $\sum_x \sum_y p(x, y) = 1$ 。

对于连续型随机变量：

联合PDF：函数 $f(x, y)$ 满足： $P((X, Y) \in D) = \iint_D f(x, y) \mathrm{d}x \mathrm{d}y$ 且 $f(x, y) \ge 0$ ， $\int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f(x, y) \mathrm{d}x \mathrm{d}y = 1$ 。

在点 $(x, y)$ 处，联合PDF可以看作概率的”面密度”： $f(x, y) = \frac{\partial^2 F(x, y)}{\partial x \partial y}$

独立性

定义：随机变量 $X$ 和 $Y$ 独立，当且仅当：

离散型： $p(x, y) = p_X(x) \cdot p_Y(y)$ 对所有 $(x, y)$ 成立。

连续型： $f(x, y) = f_X(x) \cdot f_Y(y)$ 对所有 $(x, y)$ 成立。

统一表述： $F(x, y) = F_X(x) \cdot F_Y(y)$ 对所有 $x, y$ 成立。

独立性意味着一个随机变量的取值不影响另一个随机变量的分布。对于独立随机变量，有 $E[XY] = E[X]E[Y]$ ， $\text{Var}(X + Y) = \text{Var}(X) + \text{Var}(Y)$ 。

1.5.3 边缘分布与条件分布

边缘分布

从联合分布可以得到单个随机变量的分布，称为边缘分布。

离散型边缘PMF： $p_X(x) = \sum_y p(x, y), \quad p_Y(y) = \sum_x p(x, y)$

连续型边缘PDF： $f_X(x) = \int_{-\infty}^{\infty} f(x, y) \mathrm{d}y, \quad f_Y(y) = \int_{-\infty}^{\infty} f(x, y) \mathrm{d}x$

边缘分布描述了单个随机变量的分布特性，但丢失了与其他变量的关系信息。

条件分布

条件分布描述在给定一个随机变量取值的条件下，另一个随机变量的分布。

离散型条件PMF： $p_{X|Y}(x|y) = P(X = x | Y = y) = \frac{p(x, y)}{p_Y(y)}, \quad p_Y(y) > 0$

连续型条件PDF： $f_{X|Y}(x|y) = \frac{f(x, y)}{f_Y(y)}, \quad f_Y(y) > 0$

条件分布满足概率分布的所有性质。例如，对于连续型： $P(a \le X \le b | Y = y) = \int_a^b f_{X|Y}(x|y) \mathrm{d}x$

乘法公式：

离散型： $p(x, y) = p_{X|Y}(x|y) \cdot p_Y(y) = p_{Y|X}(y|x) \cdot p_X(x)$

连续型： $f(x, y) = f_{X|Y}(x|y) \cdot f_Y(y) = f_{Y|X}(y|x) \cdot f_X(x)$

这给出了联合分布、边缘分布和条件分布之间的关系。

条件期望与全期望公式

条件期望：给定 $Y = y$ 时， $X$ 的条件期望为：

离散型： $E[X | Y = y] = \sum_x x \cdot p_{X|Y}(x|y)$

连续型： $E[X | Y = y] = \int_{-\infty}^{\infty} x \cdot f_{X|Y}(x|y) \mathrm{d}x$

条件期望 $E[X | Y]$ 本身是 $Y$ 的函数，也是一个随机变量。

全期望公式（迭代期望法则）： $E[X] = E[E[X | Y]]$ 具体地：

离散型： $E[X] = \sum_y E[X | Y = y] \cdot p_Y(y)$

连续型： $E[X] = \int_{-\infty}^{\infty} E[X | Y = y] \cdot f_Y(y) \mathrm{d}y$

全期望公式在计算复杂期望时非常有用，可以先固定一个变量进行条件期望计算，再对该变量求期望。

1.5.4 多维正态分布

多维正态分布是单变量正态分布在多维情形的推广，在统计学和机器学习中具有核心地位。

定义：设 $\boldsymbol{\mu} = (\mu_1, \ldots, \mu_n)^T \in \mathbb{R}^n$ ， $\boldsymbol{\Sigma}$ 为 $n \times n$ 正定对称矩阵。若随机向量 $\mathbf{X} = (X_1, \ldots, X_n)^T$ 的联合概率密度函数为： $f(\mathbf{x}) = \frac{1}{(2\pi)^{n/2} |\boldsymbol{\Sigma}|^{1/2}} \exp\left(-\frac{1}{2}(\mathbf{x} - \boldsymbol{\mu})^T \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu})\right)$ 则称 $\mathbf{X}$ 服从 $n$ 维正态分布，记为 $\mathbf{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ 。

其中 $\boldsymbol{\mu}$ 是均值向量， $\boldsymbol{\Sigma}$ 是协方差矩阵： $\boldsymbol{\Sigma} = \begin{pmatrix} \sigma_{11} & \sigma_{12} & \cdots & \sigma_{1n} \\ \sigma_{21} & \sigma_{22} & \cdots & \sigma_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ \sigma_{n1} & \sigma_{n2} & \cdots & \sigma_{nn} \end{pmatrix}$ 其中 $\sigma_{ij} = \text{Cov}(X_i, X_j)$ ， $\sigma_{ii} = \text{Var}(X_i) = \sigma_i^2$ 。

多维正态分布的重要性质：

边缘分布仍为正态：每个分量 $X_i \sim N(\mu_i, \sigma_{ii})$ 。

不相关等价于独立：对于多维正态分布， $X_i$ 与 $X_j$ 不相关当且仅当它们独立。

线性变换不变性：若 $\mathbf{X} \sim N_n(\boldsymbol{\mu}, \boldsymbol{\Sigma})$ ， $\mathbf{A}$ 为 $m \times n$ 矩阵， $\mathbf{b} \in \mathbb{R}^m$ ，则： $\mathbf{Y} = \mathbf{A}\mathbf{X} + \mathbf{b} \sim N_m(\mathbf{A}\boldsymbol{\mu} + \mathbf{b}, \mathbf{A}\boldsymbol{\Sigma}\mathbf{A}^T)$

条件分布仍为正态：在给定部分分量的条件下，其余分量的条件分布也是正态分布。

二维正态分布是常见的特例。设 $(X, Y) \sim N_2(\mu_1, \mu_2, \sigma_1^2, \sigma_2^2, \rho)$ ，其中 $\rho$ 是相关系数，则：

条件分布： $X | Y = y \sim N\left(\mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y - \mu_2), \sigma_1^2(1 - \rho^2)\right)$

条件期望 $E[X | Y = y] = \mu_1 + \rho\frac{\sigma_1}{\sigma_2}(y - \mu_2)$ 是 $y$ 的线性函数，这是正态分布的重要特征。

1.6 大数定律与中心极限定理

大数定律和中心极限定理是概率论中最重要的极限定理，它们描述了随机变量序列在大量试验下的渐近行为。

1.6.1 依概率收敛（ $X_n \overset{P}{\to} X$ ）与几乎处处收敛（a.s.）

在讨论极限定理之前，我们需要明确随机变量序列收敛的含义。

依概率收敛：设 $\{X_n\}$ 是随机变量序列， $X$ 是随机变量。若对任意 $\varepsilon > 0$ ，有： $\lim_{n \to \infty} P(|X_n - X| \ge \varepsilon) = 0$ 则称 $X_n$ 依概率收敛于 $X$ ，记为 $X_n \overset{P}{\to} X$ 。

依概率收敛意味着当 $n$ 足够大时， $X_n$ 与 $X$ 的差距超过任意给定阈值的概率趋于零。

几乎处处收敛（以概率 1 收敛）：若： $P\left(\lim_{n \to \infty} X_n = X\right) = 1$ 或等价地： $P\left(\omega: \lim_{n \to \infty} X_n(\omega) = X(\omega)\right) = 1$ 则称 $X_n$ 几乎处处收敛于 $X$ ，记为 $X_n \overset{a.s.}{\to} X$ 或 $X_n \to X$ a.s.。

几乎处处收敛是更强的收敛形式：对几乎所有的样本点，序列都收敛。

关系：几乎处处收敛蕴含依概率收敛，但反之不成立。

1.6.2 弱大数定律

弱大数定律（Weak Law of Large Numbers, WLLN）描述了样本均值依概率收敛于期望值。

定理（切比雪夫弱大数定律）：设 $\{X_n\}$ 是两两不相关的随机变量序列， $E[X_i] = \mu$ ， $\text{Var}(X_i) \le C$ （方差有界）。令 $\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$ ，则： $\bar{X}_n \overset{P}{\to} \mu$

证明：首先计算 $\bar{X}_n$ 的期望和方差： $E[\bar{X}_n] = \frac{1}{n}\sum_{i=1}^n E[X_i] = \mu$ 由于两两不相关： $\text{Var}(\bar{X}_n) = \frac{1}{n^2}\sum_{i=1}^n \text{Var}(X_i) \le \frac{nC}{n^2} = \frac{C}{n}$ 由切比雪夫不等式： $P(|\bar{X}_n - \mu| \ge \varepsilon) \le \frac{\text{Var}(\bar{X}_n)}{\varepsilon^2} \le \frac{C}{n\varepsilon^2} \to 0 \quad (n \to \infty)$

更一般的弱大数定律不需要方差存在的条件：

定理（辛钦弱大数定律）：设 $\{X_n\}$ 是独立同分布（i.i.d.）的随机变量序列， $E[X_1] = \mu$ 存在，则： $\bar{X}_n \overset{P}{\to} \mu$

弱大数定律为频率学派的概率解释提供了理论基础：事件发生的频率依概率收敛于其理论概率。

1.6.3 强大数定律

强大数定律（Strong Law of Large Numbers, SLLN）是更强的结果，描述了样本均值几乎处处收敛于期望值。

定理（科尔莫戈罗夫强大数定律）：设 $\{X_n\}$ 是独立同分布的随机变量序列，则： $\bar{X}_n \overset{a.s.}{\to} \mu$ 当且仅当 $E[|X_1|] < \infty$ ，此时 $\mu = E[X_1]$ 。

强大数定律表明，对于几乎所有样本路径，样本均值都会收敛到期望值。这比弱大数定律”更强的概率趋于目标”更加确定。

中心极限定理（Central Limit Theorem, CLT）

虽然不在小节标题中，但中心极限定理是与大数定律并列的核心极限定理，必须提及。

定理（林德伯格-列维中心极限定理）：设 $\{X_n\}$ 是独立同分布的随机变量序列， $E[X_1] = \mu$ ， $\text{Var}(X_1) = \sigma^2 < \infty$ 。令 $\bar{X}_n = \frac{1}{n}\sum_{i=1}^n X_i$ ，则： $\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} = \frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} \overset{d}{\to} N(0, 1)$ 即对任意 $x \in \mathbb{R}$ ： $\lim_{n \to \infty} P\left(\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \le x\right) = \Phi(x)$ 其中 $\Phi(x)$ 是标准正态分布的CDF。

中心极限定理揭示了正态分布的普遍性：无论原始分布是什么（只要方差有限），大量独立随机变量之和的标准化形式都渐近服从正态分布。这解释了为什么正态分布在自然界和统计学中如此普遍。

注：记号 $\overset{d}{\to}$ 表示依分布收敛，即分布函数逐点收敛（在连续点）。

1.7 特征函数

特征函数是研究随机变量分布和极限定理的重要工具，它本质上是随机变量的傅里叶变换。

1.7.1 定义与性质

定义：随机变量 $X$ 的特征函数定义为： $\varphi_X(t) = E[e^{itX}] = \begin{cases} \sum_x e^{itx} p(x), & \text{离散型} \\ \int_{-\infty}^{\infty} e^{itx} f(x) \mathrm{d}x, & \text{连续型} \end{cases}$ 其中 $i = \sqrt{-1}$ ， $t \in \mathbb{R}$ 。

由于 $|e^{itX}| = 1$ ，特征函数对所有随机变量都存在（包括没有矩的随机变量如柯西分布）。

特征函数的基本性质：

$\varphi(0) = 1$ ， $|\varphi(t)| \le 1$ 。

$\varphi(-t) = \overline{\varphi(t)}$ （共轭对称性）。

$\varphi(t)$ 在 $\mathbb{R}$ 上一致连续。

若 $X$ 与 $Y$ 独立，则 $\varphi_{X+Y}(t) = \varphi_X(t) \cdot \varphi_Y(t)$ 。

若 $Y = aX + b$ ，则 $\varphi_Y(t) = e^{itb} \varphi_X(at)$ 。

特征函数与矩的关系：

定理：若 $E[|X|^k] < \infty$ ，则 $\varphi(t)$ 在 $t = 0$ 处 $k$ 次可导，且： $\varphi^{(k)}(0) = i^k E[X^k]$ 特别地， $E[X] = \frac{\varphi'(0)}{i}$ ， $E[X^2] = -\varphi''(0)$ 。

这为计算矩提供了另一种途径。

常见分布的特征函数：

标准正态： $\varphi(t) = e^{-t^2/2}$

一般正态 $N(\mu, \sigma^2)$ ： $\varphi(t) = e^{it\mu - \sigma^2 t^2/2}$

泊松分布 $\text{Poisson}(\lambda)$ ： $\varphi(t) = e^{\lambda(e^{it}-1)}$

指数分布 $\text{Exp}(\lambda)$ ： $\varphi(t) = \frac{\lambda}{\lambda - it}$

特征函数最重要的性质是唯一性：

唯一性定理：两个随机变量具有相同的特征函数当且仅当它们具有相同的分布函数。

这意味着特征函数完全刻画了随机变量的分布。

1.7.2 逆转公式

逆转公式提供了从特征函数恢复分布函数的方法。

定理（逆转公式）：设 $\varphi(t)$ 是随机变量 $X$ 的特征函数， $F(x)$ 是其分布函数。若 $a < b$ 是 $F$ 的连续点，则： $F(b) - F(a) = \lim_{T \to \infty} \frac{1}{2\pi} \int_{-T}^{T} \frac{e^{-ita} - e^{-itb}}{it} \varphi(t) \mathrm{d}t$

若 $X$ 是连续型随机变量，概率密度函数 $f(x)$ 连续，则有更简洁的逆转公式：

密度逆转公式： $f(x) = \frac{1}{2\pi} \int_{-\infty}^{\infty} e^{-itx} \varphi(t) \mathrm{d}t$

这正是傅里叶逆变换的形式，表明特征函数与密度函数构成傅里叶变换对。

对于离散型随机变量，设其取值为 $\{x_k\}$ ，则：

离散逆转公式： $P(X = x_k) = \lim_{T \to \infty} \frac{1}{2T} \int_{-T}^{T} e^{-itx_k} \varphi(t) \mathrm{d}t$

逆转公式的重要性在于它保证了特征函数与分布函数之间的一一对应关系，使得我们可以通过特征函数来研究分布的性质，特别是在证明极限定理时非常有用。

连续性定理：设 $\{F_n\}$ 是分布函数序列， $\{\varphi_n\}$ 是对应的特征函数序列。则 $F_n$ 弱收敛于分布函数 $F$ （即在某分布函数 $F$ 的所有连续点上收敛）当且仅当 $\varphi_n(t)$ 逐点收敛于某函数 $\varphi(t)$ ，且 $\varphi(t)$ 在 $t = 0$ 处连续（此时 $\varphi$ 是极限分布的特征函数）。

连续性定理是证明中心极限定理的关键工具：我们可以通过证明标准化和的特征函数收敛于标准正态分布的特征函数 $e^{-t^2/2}$ ，来推出分布的收敛性。

2 数理统计

数理统计的基本概念

总体

定义：总体（Population）是研究对象的全体，个体（Individual）是总体中的每一个成员。总体可以看作一个随机变量 $X$ ，其分布称为总体分布。

在实际问题中，总体可以是：

有限总体：总体中个体数目有限（如某班级的全体学生）
无限总体：总体中个体数目无限（如某连续生产过程中的所有产品）

样本

定义：从总体中按一定规则抽取的 $n$ 个个体称为样本（Sample）， $n$ 称为样本容量。若 $X_1, X_2, \ldots, X_n$ 独立同分布于总体 $X$ ，则称 $(X_1, X_2, \ldots, X_n)$ 为来自总体 $X$ 的简单随机样本。

简单随机样本的性质：

独立性： $X_1, X_2, \ldots, X_n$ 相互独立
同分布性：每个 $X_i$ 都与总体 $X$ 服从相同的分布

样本的观测值记为 $(x_1, x_2, \ldots, x_n)$ ，是样本的一个具体实现。

样本分布

常用统计量

定义：统计量（Statistic）是样本的函数 $T = T(X_1, X_2, \ldots, X_n)$ ，且不依赖于任何未知参数。由于样本是随机变量，统计量也是随机变量。

常见的统计量包括：

样本均值： $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$

样本方差： $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2$

样本标准差： $S = \sqrt{S^2} = \sqrt{\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2}$

样本 $k$ 阶原点矩： $A_k = \frac{1}{n}\sum_{i=1}^n X_i^k, \quad k = 1, 2, \ldots$

样本 $k$ 阶中心矩： $B_k = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^k, \quad k = 2, 3, \ldots$

统计量在推断中的作用：统计量浓缩了样本中的信息，是连接样本与总体的桥梁。通过统计量的分布（抽样分布），我们可以对总体进行推断。

2.3 统计推断概述

统计推断是数理统计的核心内容，它研究如何根据样本数据对总体的特征进行推断和决策。

2.3.1 统计推断的定义与目的

定义：统计推断（Statistical Inference）是指根据从总体中抽取的样本数据，对总体的分布、参数或特征进行估计、预测和决策的过程。

统计推断的主要目的包括：

认识总体：通过样本了解总体的分布特征和数量规律
估计参数：估计总体分布中的未知参数
检验假设：验证关于总体的某种假设是否成立
预测未来：基于已有数据对未来观测值进行预测

例子：某工厂生产一批零件，想知道这批零件的平均长度。由于无法测量所有零件（总体），我们随机抽取100个零件（样本）测量其长度，然后根据样本数据推断整批零件的平均长度。这就是一个典型的统计推断问题。

2.3.2 统计推断的两大分支

统计推断主要分为参数估计和假设检验两大分支。

参数估计

定义：参数估计（Parameter Estimation）是根据样本数据估计总体分布中的未知参数。

参数估计分为两类：

点估计：给出参数的一个具体数值估计
区间估计：给出参数的一个置信区间，表示参数以一定概率落入该区间

例子：估计某城市居民的平均收入。点估计可能给出”月平均收入为8000元”；区间估计可能给出”月平均收入的95%置信区间为[7500, 8500]元”。

假设检验

定义：假设检验（Hypothesis Testing）是根据样本数据对关于总体的某种假设进行判断，决定接受或拒绝该假设。

假设检验的基本步骤：

建立原假设 $H_0$ 和备择假设 $H_1$
选择适当的检验统计量
确定显著性水平 $\alpha$
根据样本计算检验统计量的值
做出拒绝或接受原假设的决策

例子：某药厂声称其新药的有效率为90%。我们抽取100名患者试用该药，发现其中80人有效。通过假设检验，我们可以判断”有效率90%“这一说法是否可信。

2.3.3 统计推断的基本思想

统计推断遵循”部分推断总体”的基本思想，其核心依据是大数定律和中心极限定理：

大数定律：当样本容量足够大时，样本均值依概率收敛于总体期望，即 $\bar{X} \overset{P}{\to} E[X]$
中心极限定理：当 $n$ 充分大时， $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \overset{d}{\to} N(0, 1)$

这些极限定理为统计推断提供了理论基础，使得我们可以用样本统计量来推断总体参数。

2.4 $t$ -分布的详细讨论

$t$ -分布（Student’s t-distribution）是统计推断中最重要的分布之一，在小样本推断中具有核心地位。本节在第1章的基础上，对 $t$ -分布进行更深入的讨论。

2.4.1 $t$ -分布的定义回顾

定义：设 $Z \sim N(0, 1)$ ， $U \sim \chi^2(n)$ ，且 $Z$ 与 $U$ 相互独立，则随机变量 $T = \frac{Z}{\sqrt{U/n}}$ 服从自由度为 $n$ 的 $t$ -分布，记为 $T \sim t(n)$ 。

这个定义表明， $t$ -分布是标准正态分布与卡方分布（经过适当标准化）之比。正是这种构造方式，使得 $t$ -分布在小样本情况下比正态分布更加适用。

2.4.2 $t$ -分布的概率密度函数

定理：设 $T \sim t(n)$ ，则其概率密度函数为 $f(t) = \frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi} \cdot \Gamma\left(\frac{n}{2}\right)} \left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}}, \quad -\infty < t < +\infty$

推导思路：

利用随机变量商的分布公式。设 $Z \sim N(0, 1)$ ， $V = \sqrt{U/n}$ ，则 $T = Z/V$ 。

由于 $U \sim \chi^2(n)$ ，则 $V^2 = U/n$ 的分布可以通过变换得到。结合 $Z$ 与 $U$ 的独立性，经过积分运算可得上述密度函数。

其中 $\Gamma(\cdot)$ 是伽马函数，满足 $\Gamma(n) = (n-1)!$ （当 $n$ 为正整数时）。

2.4.3 $t$ -分布的性质

对称性

性质1（对称性）： $t$ -分布的概率密度函数 $f(t)$ 关于 $t = 0$ 对称，即 $f(-t) = f(t)$ 。因此，若 $T \sim t(n)$ ，则 $-T \sim t(n)$ 。

这意味着 $t$ -分布的期望（当存在时）为零，且分布呈钟形，与标准正态分布类似。

尾部特性

性质2（厚尾性）： $t$ -分布比标准正态分布具有更厚的尾部。即对于充分大的 $|t|$ ， $t$ -分布的密度函数值大于标准正态分布的密度函数值。

厚尾性意味着 $t$ -分布比正态分布更容易产生极端值。这是因为 $t$ -分布的定义中，分母 $\sqrt{U/n}$ 本身也是随机变量，增加了整体的变异性。

渐近正态性

性质3（渐近正态性）：当自由度 $n \to \infty$ 时， $t$ -分布趋近于标准正态分布，即 $\lim_{n \to \infty} f(t) = \frac{1}{\sqrt{2\pi}} e^{-\frac{t^2}{2}} = \phi(t)$

证明：利用斯特林公式近似伽马函数，当 $n \to \infty$ 时： $\frac{\Gamma\left(\frac{n+1}{2}\right)}{\sqrt{n\pi} \cdot \Gamma\left(\frac{n}{2}\right)} \to \frac{1}{\sqrt{2\pi}}$ $\left(1 + \frac{t^2}{n}\right)^{-\frac{n+1}{2}} \to e^{-\frac{t^2}{2}}$

因此，当自由度足够大时（通常 $n > 30$ ），可以用标准正态分布近似 $t$ -分布。

数字特征

性质4（期望与方差）：设 $T \sim t(n)$ ，则

当 $n > 1$ 时， $E[T] = 0$

当 $n > 2$ 时， $\text{Var}(T) = \frac{n}{n-2}$

注意，当 $n \le 1$ 时期望不存在，当 $n \le 2$ 时方差不存在。这与 $t$ -分布的厚尾特性有关——自由度较小时，尾部衰减较慢，导致高阶矩可能不存在。

2.4.4 $t$ -分布与样本均值的关系

$t$ -分布在统计推断中最重要的应用与样本均值密切相关。

定理：设 $X_1, X_2, \ldots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的简单随机样本， $\bar{X}$ 为样本均值， $S^2$ 为样本方差，则 $\frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$

证明：

已知 $\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)$ ，因此 $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$

又知 $(n-1)S^2/\sigma^2 \sim \chi^2(n-1)$ ，且 $\bar{X}$ 与 $S^2$ 独立。

因此 $\frac{\bar{X} - \mu}{S/\sqrt{n}} = \frac{(\bar{X} - \mu)/(\sigma/\sqrt{n})}{\sqrt{\frac{(n-1)S^2}{\sigma^2}/(n-1)}} = \frac{Z}{\sqrt{U/(n-1)}}$

其中 $Z \sim N(0, 1)$ ， $U \sim \chi^2(n-1)$ ，且 $Z$ 与 $U$ 独立。根据 $t$ -分布的定义，该比值服从 $t(n-1)$ 。

注意：这个定理的重要性在于，当总体方差 $\sigma^2$ 未知时，我们不能使用 $\frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$ 进行推断，而必须用样本标准差 $S$ 代替 $\sigma$ ，此时统计量服从 $t$ -分布而非正态分布。

2.4.5 $t$ -分布的应用场景

$t$ -分布主要应用于以下场景：

小样本均值推断

场景1：单样本 $t$ 检验

当总体服从正态分布、方差未知、样本容量较小（通常 $n < 30$ ）时，对总体均值进行推断需要使用 $t$ -分布。

场景2：两样本 $t$ 检验

比较两个正态总体均值是否相等时，若方差未知但相等，检验统计量也服从 $t$ -分布。

置信区间估计

例子：从正态总体中抽取容量为 $n = 16$ 的样本，测得样本均值 $\bar{x} = 20$ ，样本标准差 $s = 4$ 。求总体均值 $\mu$ 的95%置信区间。

解：由于 $\sigma$ 未知且 $n$ 较小，使用 $t$ -分布。查表得 $t_{0.025}(15) = 2.131$ ，则置信区间为 $\bar{x} \pm t_{0.025}(15) \cdot \frac{s}{\sqrt{n}} = 20 \pm 2.131 \times \frac{4}{4} = 20 \pm 2.131$ 即 $[17.869, 22.131]$ 。

2.4.6 $t$ -分布的上 $\alpha$ 分位数

定义：设 $T \sim t(n)$ ，对于给定的 $\alpha \in (0, 1)$ ，称满足 $P(T > t_\alpha(n)) = \alpha$ 的数 $t_\alpha(n)$ 为 $t$ -分布的上 $\alpha$ 分位数（或上侧分位数）。

上 $\alpha$ 分位数的性质：

性质：由于 $t$ -分布的对称性，有 $t_{1-\alpha}(n) = -t_\alpha(n)$

常用分位数值：

$n$	$t_{0.05}(n)$	$t_{0.025}(n)$	$t_{0.01}(n)$
5	2.015	2.571	3.365
10	1.812	2.228	2.764
20	1.725	2.086	2.528
30	1.697	2.042	2.457
$\infty$	1.645	1.96	2.326

最后一行（ $n = \infty$ ）对应标准正态分布的分位数，体现了 $t$ -分布向正态分布的收敛。

例子：查 $t$ 分布表， $t_{0.05}(10) = 1.812$ ， $t_{0.95}(10) = -1.812$ 。这意味着若 $T \sim t(10)$ ，则 $P(T > 1.812) = 0.05$ ， $P(T < -1.812) = 0.05$ 。

2.5 F-分布

F-分布是数理统计中最重要的抽样分布之一，在方差分析、回归分析和两个正态总体方差比的假设检验中有广泛应用。本节将对F-分布进行详细的讨论。

2.5.1 F-分布的定义

在第1章中，我们简要介绍了F-分布的定义。现在回顾并深入探讨：

定义：设随机变量 $U \sim \chi^2(m)$ ， $V \sim \chi^2(n)$ ，且 $U$ 与 $V$ 相互独立，则称随机变量 $F = \frac{U/m}{V/n}$ 服从自由度为 $(m, n)$ 的F-分布，记为 $F \sim F(m, n)$ 。其中 $m$ 称为第一自由度（分子自由度）， $n$ 称为第二自由度（分母自由度）。

F-分布的定义基于两个独立的卡方分布随机变量的比值。由于卡方分布描述的是标准正态随机变量平方和的分布，F-分布自然地出现在涉及方差比值的统计问题中。

2.5.2 F-分布的概率密度函数

F-分布的概率密度函数具有较为复杂的形式，但可以通过变量变换从卡方分布推导得到。

定理：设 $F \sim F(m, n)$ ，则其概率密度函数为： $f(x) = \begin{cases} \displaystyle\frac{\Gamma\left(\frac{m+n}{2}\right)}{\Gamma\left(\frac{m}{2}\right)\Gamma\left(\frac{n}{2}\right)} \left(\frac{m}{n}\right)^{\frac{m}{2}} x^{\frac{m}{2}-1} \left(1 + \frac{m}{n}x\right)^{-\frac{m+n}{2}}, & x > 0 \\[10pt] 0, & x \leq 0 \end{cases}$

证明思路：

设 $U \sim \chi^2(m)$ ， $V \sim \chi^2(n)$ ，且独立。已知卡方分布的密度函数为： $f_U(u) = \frac{1}{2^{m/2}\Gamma(m/2)} u^{\frac{m}{2}-1} e^{-\frac{u}{2}}, \quad u > 0$

令 $X = \frac{U}{m}$ ， $Y = \frac{V}{n}$ ，则 $F = \frac{X}{Y}$ 。通过变量变换和积分，可以得到F-分布的密度函数。

F-分布的密度函数形状取决于两个自由度 $(m, n)$ 。当 $m$ 和 $n$ 都较小时，分布高度右偏；随着自由度的增加，分布逐渐趋于对称。

2.5.3 F-分布的基本性质

F-分布具有以下重要性质：

1. 非负性

由于F-分布定义为两个非负卡方随机变量（除以各自自由度）的比值，因此：

性质：若 $F \sim F(m, n)$ ，则 $P(F > 0) = 1$ ，即F-分布的支撑集为 $(0, +\infty)$ 。

2. 右偏分布

F-分布是一种右偏（正偏）分布，其偏度取决于自由度。

性质：F-分布的偏度为： $\gamma_1 = \frac{(2m + n - 2)\sqrt{8(n-4)}}{(n-6)\sqrt{m(m+n-2)}}, \quad n > 6$ 可见当 $n > 6$ 时，偏度恒为正，说明F-分布具有右偏特性。

F-分布的期望和方差分别为： $E[F] = \frac{n}{n-2}, \quad n > 2$ $\text{Var}(F) = \frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}, \quad n > 4$

3. 倒数性质

F-分布具有一个重要的对称性质：

定理：若 $X \sim F(m, n)$ ，则 $\displaystyle\frac{1}{X} \sim F(n, m)$ 。

证明：由定义， $X = \frac{U/m}{V/n}$ ，其中 $U \sim \chi^2(m)$ ， $V \sim \chi^2(n)$ 。则： $\frac{1}{X} = \frac{V/n}{U/m} \sim F(n, m)$

这个性质在查表计算分位数时非常有用，因为F-分布表通常只提供上侧分位数。

4. F-分布与t-分布的关系

F-分布与t-分布之间存在密切联系：

定理：若 $T \sim t(n)$ ，则 $T^2 \sim F(1, n)$ 。

证明：回顾t-分布的定义， $T = \frac{Z}{\sqrt{V/n}}$ ，其中 $Z \sim N(0,1)$ ， $V \sim \chi^2(n)$ ，且 $Z$ 与 $V$ 独立。则： $T^2 = \frac{Z^2}{V/n}$ 由于 $Z^2 \sim \chi^2(1)$ ，根据F-分布的定义， $T^2 \sim F(1, n)$ 。

这个关系解释了为什么双侧t检验与F检验在某些情况下等价。

例子：考虑一个单样本t检验问题，检验 $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$ 。检验统计量为 $t = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}$ 。若将检验改为 $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$ 使用 $t^2$ ，则 $t^2$ 服从 $F(1, n-1)$ 分布。这说明双侧t检验等价于一个特殊的F检验。

2.5.4 F-分布与样本方差比

F-分布在比较两个正态总体方差时自然出现，这是其最重要的应用场景之一。

定理：设 $X_1, X_2, \ldots, X_m$ 是来自总体 $N(\mu_1, \sigma_1^2)$ 的简单随机样本， $Y_1, Y_2, \ldots, Y_n$ 是来自总体 $N(\mu_2, \sigma_2^2)$ 的简单随机样本，且两样本相互独立。设样本方差分别为： $S_1^2 = \frac{1}{m-1}\sum_{i=1}^m (X_i - \bar{X})^2, \quad S_2^2 = \frac{1}{n-1}\sum_{i=1}^n (Y_i - \bar{Y})^2$ 则： $\frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(m-1, n-1)$

证明：由抽样分布理论，我们知道： $\frac{(m-1)S_1^2}{\sigma_1^2} \sim \chi^2(m-1), \quad \frac{(n-1)S_2^2}{\sigma_2^2} \sim \chi^2(n-1)$ 且两者独立。因此： $\frac{\frac{(m-1)S_1^2}{\sigma_1^2}/(m-1)}{\frac{(n-1)S_2^2}{\sigma_2^2}/(n-1)} = \frac{S_1^2/\sigma_1^2}{S_2^2/\sigma_2^2} \sim F(m-1, n-1)$

推论：当 $\sigma_1^2 = \sigma_2^2$ 时，有 $\displaystyle\frac{S_1^2}{S_2^2} \sim F(m-1, n-1)$ 。

这个结果是两个正态总体方差齐性检验的理论基础。

例子：某工厂有两条生产线生产同一种零件。从第一条生产线抽取16个零件，测得样本方差 $s_1^2 = 0.0042$ ；从第二条生产线抽取21个零件，测得样本方差 $s_2^2 = 0.0018$ 。假设零件尺寸服从正态分布，检验两条生产线的方差是否有显著差异（ $\alpha = 0.05$ ）。

解：建立假设 $H_0: \sigma_1^2 = \sigma_2^2$ vs $H_1: \sigma_1^2 \neq \sigma_2^2$ 。检验统计量为 $F = \frac{S_1^2}{S_2^2} \sim F(15, 20)$ （在 $H_0$ 下）。

计算得 $f = \frac{0.0042}{0.0018} = 2.33$ 。

查F分布表得 $F_{0.025}(15, 20) = 2.57$ ， $F_{0.975}(15, 20) = \frac{1}{F_{0.025}(20, 15)} = \frac{1}{2.76} = 0.36$ 。

由于 $0.36 < 2.33 < 2.57$ ，不能拒绝 $H_0$ ，认为两条生产线的方差没有显著差异。

2.5.5 F-分布的上 $\alpha$ 分位数

F-分布的上 $\alpha$ 分位数是统计推断中常用的临界值。

定义：设 $F \sim F(m, n)$ ，对于给定的 $\alpha \in (0, 1)$ ，称满足 $P(F > F_\alpha(m, n)) = \alpha$ 的数值 $F_\alpha(m, n)$ 为F-分布的上 $\alpha$ 分位数（或临界值）。

F-分布分位数具有以下重要性质：

性质： $F_{1-\alpha}(m, n) = \displaystyle\frac{1}{F_\alpha(n, m)}$

证明：设 $X \sim F(m, n)$ ，则 $\frac{1}{X} \sim F(n, m)$ 。由定义： $P\left(X > F_{1-\alpha}(m, n)\right) = 1-\alpha$ 等价于： $P\left(X \leq F_{1-\alpha}(m, n)\right) = \alpha$ 即： $P\left(\frac{1}{X} \geq \frac{1}{F_{1-\alpha}(m, n)}\right) = \alpha$ 由于 $\frac{1}{X} \sim F(n, m)$ ，上式意味着 $\frac{1}{F_{1-\alpha}(m, n)} = F_\alpha(n, m)$ ，即得证。

这个性质非常重要，因为F-分布表通常只给出较小 $\alpha$ 值（如0.10, 0.05, 0.025, 0.01）的上侧分位数，利用上述性质可以求得较大 $\alpha$ 值（如0.90, 0.95, 0.975, 0.99）对应的分位数。

例子：已知 $F_{0.05}(10, 15) = 2.54$ ，求 $F_{0.95}(15, 10)$ 。

解：利用性质： $F_{0.95}(15, 10) = \frac{1}{F_{0.05}(10, 15)} = \frac{1}{2.54} \approx 0.394$

2.5.6 F-分布在方差分析中的应用

方差分析（Analysis of Variance, ANOVA）是F-分布最重要的应用之一，用于检验多个总体均值是否相等。

单因素方差分析模型：设因素有 $k$ 个水平，第 $i$ 个水平下有 $n_i$ 个观测值 $X_{ij} \sim N(\mu_i, \sigma^2)$ ， $j = 1, 2, \ldots, n_i$ 。检验假设： $H_0: \mu_1 = \mu_2 = \cdots = \mu_k \quad \text{vs} \quad H_1: \text{至少有两个均值不相等}$

方差分析的基本思想是将总变异分解为组间变异和组内变异：

总平方和（SST）： $SST = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X})^2$

组间平方和（SSB，处理平方和）： $SSB = \sum_{i=1}^k n_i (\bar{X}_i - \bar{X})^2$

组内平方和（SSW，误差平方和）： $SSW = \sum_{i=1}^k \sum_{j=1}^{n_i} (X_{ij} - \bar{X}_i)^2$

其中 $\bar{X}_i$ 是第 $i$ 组的样本均值， $\bar{X}$ 是总样本均值。有分解式： $SST = SSB + SSW$ 。

F统计量：在 $H_0$ 成立时， $F = \frac{SSB/(k-1)}{SSW/(N-k)} = \frac{MSB}{MSW} \sim F(k-1, N-k)$ 其中 $N = \sum_{i=1}^k n_i$ ， $MSB$ 和 $MSW$ 分别称为组间均方和组内均方。

直观解释：

若 $H_0$ 成立，组间变异和组内变异都应仅由随机误差引起， $F$ 值应接近1。
若 $H_0$ 不成立，组间变异还会包含处理效应， $F$ 值将显著大于1。

因此，当 $F > F_\alpha(k-1, N-k)$ 时，拒绝原假设，认为各组均值之间存在显著差异。

例子：某农业实验比较三种肥料对作物产量的影响，每种肥料施用5块试验田，测得产量数据（单位：kg）如下：

肥料A：65, 68, 70, 66, 67

肥料B：72, 75, 71, 74, 73

肥料C：68, 70, 69, 71, 70

进行方差分析（ $\alpha = 0.05$ ）：

计算得： $\bar{x}_A = 67.2$ ， $\bar{x}_B = 73.0$ ， $\bar{x}_C = 69.6$ ， $\bar{x} = 69.93$

$SSB = 5[(67.2-69.93)^2 + (73.0-69.93)^2 + (69.6-69.93)^2] = 5[7.45 + 9.42 + 0.11] = 84.9$

$SSW = \sum\sum (x_{ij} - \bar{x}_i)^2 = 14.8 + 10.0 + 5.2 = 30.0$

$F = \frac{84.9/2}{30.0/12} = \frac{42.45}{2.5} = 16.98$

查表得 $F_{0.05}(2, 12) = 3.89$ 。

由于 $16.98 > 3.89$ ，拒绝 $H_0$ ，认为三种肥料对作物产量的影响存在显著差异。

方差分析是F-分布最典型的应用，体现了F统计量在比较不同来源变异时的核心作用。在多因素方差分析、协方差分析和回归分析中，F-分布同样扮演着不可或缺的角色。

小结：F-分布作为两个独立卡方分布（标准化后）的比值，是统计推断中比较方差和检验多组均值差异的核心工具。其非负性、右偏性、倒数性质和与t-分布的关系构成了理论基础，而在方差分析中的应用则展现了其强大的实用价值。掌握F-分布的性质和应用，是理解现代统计方法的关键一步。

2.6 参数估计

在实际问题中，总体的分布类型往往已知，但其中包含的未知参数需要通过样本数据进行估计。参数估计就是根据样本信息来估计总体分布中未知参数的方法，主要分为点估计和区间估计两大类。

2.6.1 点估计

点估计是用一个具体的数值（统计量的观测值）来估计总体未知参数的方法。

定义：设总体 $X$ 的分布函数为 $F(x; \theta)$ ，其中 $\theta$ 是未知参数（可以是向量）。从总体中抽取样本 $X_1, X_2, \ldots, X_n$ ，构造统计量 $\hat{\theta} = \hat{\theta}(X_1, X_2, \ldots, X_n)$ ，用其观测值作为 $\theta$ 的估计值，称为 $\theta$ 的点估计。统计量 $\hat{\theta}$ 称为估计量，其观测值称为估计值。

常用的点估计方法主要有矩估计法和最大似然估计法。

矩估计法

矩估计法的基本思想是用样本矩估计相应的总体矩，通过建立矩的方程来求解未知参数。

基本思想：设总体 $X$ 的前 $k$ 阶矩存在，记 $\mu_j = E[X^j]$ 为总体的 $j$ 阶原点矩， $M_j = \frac{1}{n}\sum_{i=1}^n X_i^j$ 为样本的 $j$ 阶原点矩。令总体矩等于相应的样本矩，建立方程组求解参数。

矩估计法的求解步骤如下：

计算总体的前 $k$ 阶矩 $\mu_j = E[X^j]$ （ $j = 1, 2, \ldots, k$ ），它们通常是参数 $\theta_1, \theta_2, \ldots, \theta_k$ 的函数。
令总体矩等于样本矩： $\mu_j = M_j$ （ $j = 1, 2, \ldots, k$ ），得到 $k$ 个方程。
解这 $k$ 个方程，得到参数估计量 $\hat{\theta}_1, \hat{\theta}_2, \ldots, \hat{\theta}_k$ 。

例子：设 $X_1, X_2, \ldots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的样本，求 $\mu$ 和 $\sigma^2$ 的矩估计量。

解：正态总体的一阶原点矩和二阶原点矩分别为： $\mu_1 = E[X] = \mu$ $\mu_2 = E[X^2] = \text{Var}(X) + (E[X])^2 = \sigma^2 + \mu^2$

令总体矩等于样本矩： $\begin{cases} \mu = \bar{X} \\ \sigma^2 + \mu^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 \end{cases}$

解得： $\hat{\mu} = \bar{X}$ $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n X_i^2 - \bar{X}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2$

注意：这里 $\hat{\sigma}^2$ 与样本方差 $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2$ 略有不同。

最大似然估计法

最大似然估计法是基于”已发生的事件应该有较大的概率”这一直观想法，寻找使观测样本出现概率最大的参数值。

定义（似然函数）：设总体 $X$ 的概率密度函数（连续型）或概率质量函数（离散型）为 $f(x; \theta)$ ，其中 $\theta \in \Theta$ 为未知参数。 $X_1, X_2, \ldots, X_n$ 是来自总体的样本，观测值为 $x_1, x_2, \ldots, x_n$ 。定义似然函数为： $L(\theta) = L(\theta; x_1, x_2, \ldots, x_n) = \prod_{i=1}^n f(x_i; \theta)$ 若 $\hat{\theta}$ 满足 $L(\hat{\theta}) = \max_{\theta \in \Theta} L(\theta)$ ，则称 $\hat{\theta}$ 为 $\theta$ 的最大似然估计值，相应的统计量 $\hat{\theta}(X_1, X_2, \ldots, X_n)$ 为最大似然估计量。

由于乘积形式求导不便，通常使用对数似然函数：

对数似然函数： $\ell(\theta) = \ln L(\theta) = \sum_{i=1}^n \ln f(x_i; \theta)$ 由于对数函数是单调递增的， $L(\theta)$ 与 $\ell(\theta)$ 在同一处取得最大值。

最大似然估计的求解步骤：

写出似然函数 $L(\theta)$ 和对数似然函数 $\ell(\theta)$ 。
对 $\ell(\theta)$ 关于 $\theta$ 求导，令导数等于零，得到似然方程（组）。
解似然方程（组），验证所得解使似然函数达到最大。

例子：设 $X_1, X_2, \ldots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的样本，求 $\mu$ 和 $\sigma^2$ 的最大似然估计。

解：似然函数为： $L(\mu, \sigma^2) = \prod_{i=1}^n \frac{1}{\sqrt{2\pi}\sigma} \exp\left(-\frac{(x_i - \mu)^2}{2\sigma^2}\right) = (2\pi\sigma^2)^{-\frac{n}{2}} \exp\left(-\frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2\right)$

对数似然函数为： $\ell(\mu, \sigma^2) = -\frac{n}{2}\ln(2\pi) - \frac{n}{2}\ln(\sigma^2) - \frac{1}{2\sigma^2}\sum_{i=1}^n (x_i - \mu)^2$

分别对 $\mu$ 和 $\sigma^2$ 求偏导并令其为零： $\frac{\partial \ell}{\partial \mu} = \frac{1}{\sigma^2}\sum_{i=1}^n (x_i - \mu) = 0$ $\frac{\partial \ell}{\partial \sigma^2} = -\frac{n}{2\sigma^2} + \frac{1}{2(\sigma^2)^2}\sum_{i=1}^n (x_i - \mu)^2 = 0$

由第一个方程解得 $\hat{\mu} = \bar{x} = \frac{1}{n}\sum_{i=1}^n x_i$ 。

将 $\hat{\mu}$ 代入第二个方程，解得： $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (x_i - \bar{x})^2$

可以验证这确实是最大值点。因此，正态总体参数的最大似然估计为 $\hat{\mu} = \bar{X}$ ， $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2$ 。

例子：设 $X_1, X_2, \ldots, X_n$ 是来自泊松分布 $\text{Poisson}(\lambda)$ 的样本，求 $\lambda$ 的最大似然估计。

解：泊松分布的概率质量函数为 $P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!}$ ， $k = 0, 1, 2, \ldots$ 。

似然函数为： $L(\lambda) = \prod_{i=1}^n \frac{\lambda^{x_i} e^{-\lambda}}{x_i!} = \frac{\lambda^{\sum_{i=1}^n x_i} e^{-n\lambda}}{\prod_{i=1}^n x_i!}$

对数似然函数为： $\ell(\lambda) = \sum_{i=1}^n x_i \cdot \ln \lambda - n\lambda - \sum_{i=1}^n \ln(x_i!)$

对 $\lambda$ 求导并令其为零： $\frac{d\ell}{d\lambda} = \frac{\sum_{i=1}^n x_i}{\lambda} - n = 0$

解得： $\hat{\lambda} = \frac{1}{n}\sum_{i=1}^n x_i = \bar{x}$

因此，泊松分布参数的最大似然估计为样本均值 $\hat{\lambda} = \bar{X}$ 。

点估计的优良性准则

不同的估计方法可能得到不同的估计量，需要评价估计量的优劣。常用的评价标准包括无偏性、有效性和一致性。

定义（无偏性）：设 $\hat{\theta}$ 是参数 $\theta$ 的估计量，若 $E[\hat{\theta}] = \theta$ 对所有 $\theta \in \Theta$ 成立，则称 $\hat{\theta}$ 是 $\theta$ 的无偏估计量。

无偏性要求估计量在多次重复抽样下的平均值等于被估计参数的真值，即没有系统性偏差。

例子：样本均值 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ 是总体均值 $\mu$ 的无偏估计，因为 $E[\bar{X}] = \mu$ 。

样本方差 $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2$ 是总体方差 $\sigma^2$ 的无偏估计，而 $\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^n (X_i - \bar{X})^2$ 是有偏估计。

定义（有效性）：设 $\hat{\theta}_1$ 和 $\hat{\theta}_2$ 都是 $\theta$ 的无偏估计量，若对任意 $\theta \in \Theta$ ，有 $\text{Var}(\hat{\theta}_1) \le \text{Var}(\hat{\theta}_2)$ ，且至少对一个 $\theta$ 严格不等，则称 $\hat{\theta}_1$ 比 $\hat{\theta}_2$ 有效。

有效性反映了估计量的波动程度，方差越小，估计值越集中在真值附近，估计越精确。

定义（一致性）：设 $\hat{\theta}_n = \hat{\theta}_n(X_1, X_2, \ldots, X_n)$ 是基于样本量为 $n$ 的估计量序列，若对任意 $\varepsilon > 0$ ，有： $\lim_{n \to \infty} P(|\hat{\theta}_n - \theta| \ge \varepsilon) = 0$ 即 $\hat{\theta}_n \overset{P}{\to} \theta$ ，则称 $\hat{\theta}_n$ 是 $\theta$ 的一致估计量。

一致性要求当样本量增大时，估计值依概率收敛于参数真值。由大数定律，样本均值是总体均值的一致估计。

2.6.2 区间估计

点估计给出参数的一个具体估计值，但无法反映估计的精度。区间估计则给出一个包含参数真值的区间，并给出该区间包含真值的可靠程度。

定义（区间估计）：设总体 $X$ 的分布含有未知参数 $\theta$ ， $X_1, X_2, \ldots, X_n$ 是来自总体的样本。构造两个统计量 $\hat{\theta}_L = \hat{\theta}_L(X_1, X_2, \ldots, X_n)$ 和 $\hat{\theta}_U = \hat{\theta}_U(X_1, X_2, \ldots, X_n)$ ，且满足 $\hat{\theta}_L \le \hat{\theta}_U$ 。对给定的样本观测值，区间 $(\hat{\theta}_L, \hat{\theta}_U)$ 称为参数 $\theta$ 的一个区间估计。

定义（置信区间）：设 $\alpha \in (0, 1)$ 是一个给定的较小的数（通常取 0.05 或 0.01），若统计量 $\hat{\theta}_L$ 和 $\hat{\theta}_U$ 满足： $P(\hat{\theta}_L \le \theta \le \hat{\theta}_U) = 1 - \alpha$ 则称随机区间 $[\hat{\theta}_L, \hat{\theta}_U]$ 为参数 $\theta$ 的置信水平为 $1 - \alpha$ 的置信区间， $\hat{\theta}_L$ 和 $\hat{\theta}_U$ 分别称为置信下限和置信上限。

置信水平 $1 - \alpha$ 的含义：在重复抽样的情况下，构造的大量置信区间中，大约有 $(1 - \alpha) \times 100\%$ 的区间包含参数真值，约有 $\alpha \times 100\%$ 的区间不包含真值。例如， $1 - \alpha = 0.95$ 表示在 100 次抽样中，大约有 95 个区间包含真值。

正态总体均值的区间估计

设 $X_1, X_2, \ldots, X_n$ 是来自正态总体 $N(\mu, \sigma^2)$ 的样本，样本均值为 $\bar{X}$ ，样本方差为 $S^2$ 。

情形一：方差 $\sigma^2$ 已知

由抽样分布理论， $\bar{X} \sim N(\mu, \sigma^2/n)$ ，标准化后得： $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0, 1)$

对于给定的置信水平 $1 - \alpha$ ，查标准正态分布表得临界值 $z_{\alpha/2}$ ，满足 $P(|Z| \le z_{\alpha/2}) = 1 - \alpha$ 。

于是： $P\left(-z_{\alpha/2} \le \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \le z_{\alpha/2}\right) = 1 - \alpha$

整理得 $\mu$ 的置信区间： $\left[\bar{X} - z_{\alpha/2}\frac{\sigma}{\sqrt{n}}, \quad \bar{X} + z_{\alpha/2}\frac{\sigma}{\sqrt{n}}\right]$

例子：从正态总体中抽取容量为 25 的样本，样本均值 $\bar{x} = 10$ ，已知总体方差 $\sigma^2 = 16$ 。求 $\mu$ 的 95% 置信区间。

解： $\alpha = 0.05$ ， $z_{0.025} = 1.96$ ， $\sigma = 4$ ， $n = 25$ 。

置信区间为： $\left[10 - 1.96 \times \frac{4}{5}, \quad 10 + 1.96 \times \frac{4}{5}\right] = [8.432, \quad 11.568]$

情形二：方差 $\sigma^2$ 未知

当 $\sigma^2$ 未知时，用样本方差 $S^2$ 代替，构造 $t$ 统计量： $T = \frac{\bar{X} - \mu}{S/\sqrt{n}} \sim t(n-1)$

对于给定的置信水平 $1 - \alpha$ ，查 $t$ 分布表得临界值 $t_{\alpha/2}(n-1)$ ，满足 $P(|T| \le t_{\alpha/2}(n-1)) = 1 - \alpha$ 。

于是 $\mu$ 的置信区间为： $\left[\bar{X} - t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}, \quad \bar{X} + t_{\alpha/2}(n-1)\frac{S}{\sqrt{n}}\right]$

正态总体方差的区间估计

设总体 $X \sim N(\mu, \sigma^2)$ ， $\mu$ 和 $\sigma^2$ 均未知。利用卡方分布构造置信区间： $\chi^2 = \frac{(n-1)S^2}{\sigma^2} \sim \chi^2(n-1)$

对于给定的置信水平 $1 - \alpha$ ，查 $\chi^2$ 分布表得临界值 $\chi^2_{1-\alpha/2}(n-1)$ 和 $\chi^2_{\alpha/2}(n-1)$ ，满足： $P\left(\chi^2_{1-\alpha/2}(n-1) \le \frac{(n-1)S^2}{\sigma^2} \le \chi^2_{\alpha/2}(n-1)\right) = 1 - \alpha$

于是 $\sigma^2$ 的置信区间为： $\left[\frac{(n-1)S^2}{\chi^2_{\alpha/2}(n-1)}, \quad \frac{(n-1)S^2}{\chi^2_{1-\alpha/2}(n-1)}\right]$

注：由于 $\chi^2$ 分布不对称，两个临界值不是关于原点对称的，置信区间也不是关于 $S^2$ 对称的。

两个正态总体均值差的区间估计

设 $X_1, X_2, \ldots, X_{n_1}$ 来自 $N(\mu_1, \sigma_1^2)$ ， $Y_1, Y_2, \ldots, Y_{n_2}$ 来自 $N(\mu_2, \sigma_2^2)$ ，两样本独立。

情形一：两总体方差已知

由于 $\bar{X} - \bar{Y} \sim N(\mu_1 - \mu_2, \frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2})$ ，则： $Z = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1)$

$\mu_1 - \mu_2$ 的置信水平为 $1 - \alpha$ 的置信区间为： $\left[(\bar{X} - \bar{Y}) - z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}, \quad (\bar{X} - \bar{Y}) + z_{\alpha/2}\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}\right]$

情形二：两总体方差相等但未知（ $\sigma_1^2 = \sigma_2^2 = \sigma^2$ ）

定义合并样本方差： $S_w^2 = \frac{(n_1 - 1)S_1^2 + (n_2 - 1)S_2^2}{n_1 + n_2 - 2}$

则： $T = \frac{(\bar{X} - \bar{Y}) - (\mu_1 - \mu_2)}{S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2)$

$\mu_1 - \mu_2$ 的置信水平为 $1 - \alpha$ 的置信区间为： $\left[(\bar{X} - \bar{Y}) - t_{\alpha/2}(n_1 + n_2 - 2) S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}, \quad (\bar{X} - \bar{Y}) + t_{\alpha/2}(n_1 + n_2 - 2) S_w\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}\right]$

2.7 假设检验

假设检验是统计推断的重要组成部分，用于根据样本数据对总体的某种假设进行判断。

2.7.1 基本概念

统计假设

定义：统计假设是关于总体分布或总体参数的某种论断或命题。它通常涉及总体分布的形式、参数的值或参数之间的关系。

统计假设分为两类：

原假设（Null Hypothesis）：记为 $H_0$ ，是需要检验的假设，通常表示”没有差异”、“没有效应”或维持现状的假设。
备择假设（Alternative Hypothesis）：记为 $H_1$ 或 $H_a$ ，是与原假设对立的假设，通常表示”存在差异”、“存在效应”或希望证实的假设。

例子：某工厂生产的零件长度标准为 $\theta = 10$ cm。现怀疑机器出现故障导致零件长度发生变化。此时可设立：

$H_0: \theta = 10$ （机器正常）

$H_1: \theta \neq 10$ （机器异常，双侧检验）或 $H_1: \theta > 10$ （机器导致零件过长，单侧检验）

检验统计量

定义：检验统计量是根据样本数据计算得到的、用于判断是否拒绝原假设的统计量。它必须满足：

当 $H_0$ 为真时，其分布已知（或近似已知）

当 $H_0$ 为假时，其取值有趋势偏离 $H_0$ 下的典型值

设样本为 $X_1, X_2, \ldots, X_n$ ，检验统计量通常记为 $T = T(X_1, X_2, \ldots, X_n)$ 。

拒绝域与接受域

定义：

拒绝域（Rejection Region）：检验统计量取值范围的子集，若统计量落入此区域则拒绝 $H_0$ ，记为 $W$ 。

接受域（Acceptance Region）：检验统计量取值范围的子集，若统计量落入此区域则不拒绝 $H_0$ 。

临界值：拒绝域与接受域的分界点，记为 $c$ 或 $c_1, c_2$ 等。

拒绝域的形式取决于备择假设：

双侧检验 $H_1: \theta \neq \theta_0$ ： $W = \{T: |T| > c\}$
右侧检验 $H_1: \theta > \theta_0$ ： $W = \{T: T > c\}$
左侧检验 $H_1: \theta < \theta_0$ ： $W = \{T: T < c\}$

两类错误

假设检验的决策与真实情况可能不一致，导致两类错误：

定义：

第一类错误（Type I Error）：弃真错误，即 $H_0$ 为真时拒绝 $H_0$ 。其概率记为： $\alpha = P(\text{拒绝 } H_0 \mid H_0 \text{ 为真}) = P(T \in W \mid H_0)$

第二类错误（Type II Error）：取伪错误，即 $H_0$ 为假时不拒绝 $H_0$ 。其概率记为： $\beta = P(\text{不拒绝 } H_0 \mid H_1 \text{ 为真}) = P(T \notin W \mid H_1)$

两类错误的关系可用下表表示：

决策 \ 真实情况	$H_0$ 为真	$H_1$ 为真
拒绝 $H_0$	第一类错误（概率 $\alpha$ ）	正确决策（功效 $1-\beta$ ）
不拒绝 $H_0$	正确决策	第二类错误（概率 $\beta$ ）

注：

当样本量固定时， $\alpha$ 减小会导致 $\beta$ 增大，反之亦然。

要同时减小 $\alpha$ 和 $\beta$ ，需要增加样本量。

Neyman-Pearson 原则：先控制第一类错误概率不超过某个水平，再最小化第二类错误概率。

显著性水平

定义：显著性水平（Significance Level）是事先指定的、容许的第一类错误概率的上界，记为 $\alpha$ （常用值为 $0.05, 0.01, 0.10$ ）。

即要求： $P(\text{拒绝 } H_0 \mid H_0 \text{ 为真}) \leq \alpha$

$p$ -值：在原假设为真的条件下，获得当前样本结果或更极端结果的概率。

若 $p < \alpha$ ，拒绝 $H_0$ （结果”统计显著”）

若 $p \geq \alpha$ ，不拒绝 $H_0$

假设检验的基本步骤

假设检验的一般步骤如下：

建立假设：根据实际问题提出原假设 $H_0$ 和备择假设 $H_1$ 。
选择检验统计量：根据总体分布和待检参数，选取适当的检验统计量 $T$ ，并确定其在 $H_0$ 下的分布。
确定显著性水平：选取适当的显著性水平 $\alpha$ 。
确定拒绝域：根据 $H_1$ 的形式和 $\alpha$ ，确定拒绝域 $W$ ，使得： $P(T \in W \mid H_0) = \alpha$
计算与决策：根据样本数据计算检验统计量的观测值 $t$ ：
- 若 $t \in W$ ，拒绝 $H_0$ ，认为差异”统计显著”
- 若 $t \notin W$ ，不拒绝 $H_0$ ，暂接受 $H_0$

2.7.2 正态总体参数的假设检验

正态总体是最常见的总体模型，下面系统介绍其参数的检验方法。

单个正态总体均值的检验

设总体 $X \sim N(\mu, \sigma^2)$ ， $X_1, X_2, \ldots, X_n$ 为来自该总体的样本，样本均值为 $\bar{X} = \frac{1}{n}\sum_{i=1}^n X_i$ ，样本方差为 $S^2 = \frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})^2$ 。

方差已知： $Z$ 检验（ $U$ 检验）

当 $\sigma^2$ 已知时，检验 $H_0: \mu = \mu_0$ vs $H_1: \mu \neq \mu_0$ （或单侧备择）。

检验统计量： $Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \sim N(0, 1) \quad (\text{在 } H_0 \text{ 下})$

拒绝域（显著性水平 $\alpha$ ）：

双侧检验 $H_1: \mu \neq \mu_0$ ： $|Z| > z_{\alpha/2}$

右侧检验 $H_1: \mu > \mu_0$ ： $Z > z_\alpha$

左侧检验 $H_1: \mu < \mu_0$ ： $Z < -z_\alpha$

其中 $z_\alpha$ 是标准正态分布的上 $\alpha$ 分位数，满足 $\Phi(z_\alpha) = 1 - \alpha$ 。

例子：某工厂生产的零件长度服从 $N(\mu, 0.01^2)$ （单位：cm），标准长度为 $\mu_0 = 10$ 。现抽取 25 个零件，测得平均长度为 $\bar{x} = 10.02$ 。在 $\alpha = 0.05$ 水平下检验机器是否正常。

解： $H_0: \mu = 10$ vs $H_1: \mu \neq 10$ $z = \frac{10.02 - 10}{0.01/\sqrt{25}} = \frac{0.02}{0.002} = 10$ 由于 $|z| = 10 > z_{0.025} = 1.96$ ，拒绝 $H_0$ ，认为机器存在异常。

方差未知： $t$ 检验

当 $\sigma^2$ 未知时，用样本方差 $S^2$ 代替 $\sigma^2$ 。

检验统计量： $T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim t(n-1) \quad (\text{在 } H_0 \text{ 下})$

拒绝域（显著性水平 $\alpha$ ）：

双侧检验： $|T| > t_{\alpha/2}(n-1)$

右侧检验： $T > t_\alpha(n-1)$

左侧检验： $T < -t_\alpha(n-1)$

其中 $t_\alpha(n-1)$ 是自由度为 $n-1$ 的 $t$ 分布的上 $\alpha$ 分位数。

例子：某食品厂生产的饼干重量服从正态分布。现随机抽取 16 包饼干，测得平均重量 $\bar{x} = 248$ g，样本标准差 $s = 5$ g。在 $\alpha = 0.05$ 水平下检验平均重量是否为 250 g。

解： $H_0: \mu = 250$ vs $H_1: \mu \neq 250$ $t = \frac{248 - 250}{5/\sqrt{16}} = \frac{-2}{1.25} = -1.6$ 查表得 $t_{0.025}(15) = 2.131$ 。由于 $|t| = 1.6 < 2.131$ ，不拒绝 $H_0$ ，认为平均重量与 250 g 无显著差异。

单个正态总体方差的检验： $\chi^2$ 检验

检验 $H_0: \sigma^2 = \sigma_0^2$ vs $H_1: \sigma^2 \neq \sigma_0^2$ （或单侧备择）。

检验统计量： $\chi^2 = \frac{(n-1)S^2}{\sigma_0^2} \sim \chi^2(n-1) \quad (\text{在 } H_0 \text{ 下})$

拒绝域（显著性水平 $\alpha$ ）：

双侧检验 $H_1: \sigma^2 \neq \sigma_0^2$ ： $\chi^2 < \chi^2_{1-\alpha/2}(n-1)$ 或 $\chi^2 > \chi^2_{\alpha/2}(n-1)$

右侧检验 $H_1: \sigma^2 > \sigma_0^2$ ： $\chi^2 > \chi^2_\alpha(n-1)$

左侧检验 $H_1: \sigma^2 < \sigma_0^2$ ： $\chi^2 < \chi^2_{1-\alpha}(n-1)$

其中 $\chi^2_\alpha(n-1)$ 是自由度为 $n-1$ 的卡方分布的上 $\alpha$ 分位数。

例子：某电子元件的寿命方差按规定应不超过 $\sigma_0^2 = 100$ （小时 $^2$ ）。现抽取 20 个元件测试，得样本方差 $s^2 = 144$ 。在 $\alpha = 0.05$ 水平下检验方差是否超标。

解： $H_0: \sigma^2 \leq 100$ vs $H_1: \sigma^2 > 100$ （右侧检验） $\chi^2 = \frac{(20-1) \times 144}{100} = \frac{2736}{100} = 27.36$ 查表得 $\chi^2_{0.05}(19) = 30.144$ 。由于 $\chi^2 = 27.36 < 30.144$ ，不拒绝 $H_0$ ，认为方差未显著超标。

两个正态总体均值差的检验

设 $X_1, X_2, \ldots, X_{n_1}$ 来自 $N(\mu_1, \sigma_1^2)$ ， $Y_1, Y_2, \ldots, Y_{n_2}$ 来自 $N(\mu_2, \sigma_2^2)$ ，两样本独立。样本均值分别为 $\bar{X}, \bar{Y}$ ，样本方差分别为 $S_1^2, S_2^2$ 。

方差已知： $Z$ 检验

当 $\sigma_1^2, \sigma_2^2$ 均已知时，检验 $H_0: \mu_1 - \mu_2 = \delta_0$ （通常 $\delta_0 = 0$ ）。

检验统计量： $Z = \frac{(\bar{X} - \bar{Y}) - \delta_0}{\sqrt{\frac{\sigma_1^2}{n_1} + \frac{\sigma_2^2}{n_2}}} \sim N(0, 1) \quad (\text{在 } H_0 \text{ 下})$

拒绝域：与单个总体 $Z$ 检验类似，用标准正态分位数。

方差未知但相等：两样本 $t$ 检验

当 $\sigma_1^2 = \sigma_2^2 = \sigma^2$ 未知时，使用合并方差估计。

合并方差（Pooled Variance）： $S_p^2 = \frac{(n_1-1)S_1^2 + (n_2-1)S_2^2}{n_1 + n_2 - 2}$

检验统计量： $T = \frac{(\bar{X} - \bar{Y}) - \delta_0}{S_p\sqrt{\frac{1}{n_1} + \frac{1}{n_2}}} \sim t(n_1 + n_2 - 2) \quad (\text{在 } H_0 \text{ 下})$

拒绝域：用自由度为 $n_1 + n_2 - 2$ 的 $t$ 分布分位数。

例子：比较两种生产工艺的产品强度。工艺 A 抽取 10 件，得 $\bar{x} = 50$ ， $s_1^2 = 16$ ；工艺 B 抽取 12 件，得 $\bar{y} = 45$ ， $s_2^2 = 25$ 。假设两总体方差相等，在 $\alpha = 0.05$ 水平下检验两种工艺的强度是否有差异。

解： $H_0: \mu_1 = \mu_2$ vs $H_1: \mu_1 \neq \mu_2$ $S_p^2 = \frac{(10-1) \times 16 + (12-1) \times 25}{10+12-2} = \frac{144 + 275}{20} = 20.95$ $t = \frac{50 - 45}{\sqrt{20.95} \times \sqrt{\frac{1}{10} + \frac{1}{12}}} = \frac{5}{4.577 \times 0.428} = \frac{5}{1.959} = 2.55$ 查表得 $t_{0.025}(20) = 2.086$ 。由于 $|t| = 2.55 > 2.086$ ，拒绝 $H_0$ ，认为两种工艺的强度有显著差异。

两个正态总体方差比的检验： $F$ 检验

检验 $H_0: \sigma_1^2 = \sigma_2^2$ vs $H_1: \sigma_1^2 \neq \sigma_2^2$ （或单侧备择）。

检验统计量： $F = \frac{S_1^2}{S_2^2} \sim F(n_1-1, n_2-1) \quad (\text{在 } H_0 \text{ 下})$ （约定将较大的样本方差放在分子，或根据需要调整）

拒绝域（显著性水平 $\alpha$ ）：

双侧检验： $F < F_{1-\alpha/2}(n_1-1, n_2-1)$ 或 $F > F_{\alpha/2}(n_1-1, n_2-1)$

右侧检验 $H_1: \sigma_1^2 > \sigma_2^2$ ： $F > F_\alpha(n_1-1, n_2-1)$

左侧检验 $H_1: \sigma_1^2 < \sigma_2^2$ ： $F < F_{1-\alpha}(n_1-1, n_2-1)$

其中 $F_\alpha(m, n)$ 是 $F(m, n)$ 分布的上 $\alpha$ 分位数，满足 $F_{1-\alpha}(m, n) = \frac{1}{F_\alpha(n, m)}$ 。

注： $F$ 检验常用于两样本 $t$ 检验之前，检验方差齐性假设是否成立。

例子：在上述两种工艺的例子中，我们先检验方差齐性假设是否合理。

解： $H_0: \sigma_1^2 = \sigma_2^2$ vs $H_1: \sigma_1^2 \neq \sigma_2^2$
$F = \frac{S_2^2}{S_1^2} = \frac{25}{16} = 1.5625 $$（将较大方差放分子）查表得 $F_{0.025}(11, 9) \approx 3.91$，$F_{0.975}(11, 9) = \frac{1}{F_{0.025}(9, 11)} \approx \frac{1}{3.59} \approx 0.279$。由于 $0.279 < 1.5625 < 3.91$，不拒绝 $H_0$，认为方差齐性假设合理。$

正态总体参数假设检验方法总结

检验对象	条件	检验统计量	分布	备注
单总体均值 $\mu$	$\sigma^2$ 已知	$Z = \frac{\bar{X}-\mu_0}{\sigma/\sqrt{n}}$	$N(0,1)$	$Z$ 检验
单总体均值 $\mu$	$\sigma^2$ 未知	$T = \frac{\bar{X}-\mu_0}{S/\sqrt{n}}$	$t(n-1)$	$t$ 检验
单总体方差 $\sigma^2$	$\mu$ 未知	$\chi^2 = \frac{(n-1)S^2}{\sigma_0^2}$	$\chi^2(n-1)$	$\chi^2$ 检验
两总体均值差	$\sigma_1^2, \sigma_2^2$ 已知	$Z = \frac{\bar{X}-\bar{Y}-\delta_0}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$	$N(0,1)$	$Z$ 检验
两总体均值差	$\sigma_1^2 = \sigma_2^2$ 未知	$T = \frac{\bar{X}-\bar{Y}-\delta_0}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$	$t(n_1+n_2-2)$	两样本 $t$ 检验
两总体方差比	$\mu_1, \mu_2$ 未知	$F = \frac{S_1^2}{S_2^2}$	$F(n_1-1, n_2-1)$	$F$ 检验